استخراج المعرفة هو إنشاء المعرفة من مصادر ( قواعد البيانات العلائقية ، XML ) ومصادر ( نص ، وثائق ، صور ) غير منظمة. يجب أن تكون المعرفة الناتجة بتنسيق يمكن قراءته آليًا وتفسيره آليًا ويجب أن تمثل المعرفة بطريقة تسهل الاستنتاج. على الرغم من أنها تشبه بشكل منهجي استخراج المعلومات ( NLP ) و ETL (مستودع البيانات) ، إلا أن المعيار الرئيسي هو أن نتيجة الاستخراج تتجاوز إنشاء المعلومات المهيكلة أو التحول إلى مخطط علائقي . يتطلب إما إعادة استخدام المعرفة الرسمية الحالية (إعادة استخدام المعرفات أو الأنطولوجيات ) أو إنشاء مخطط بناءً على البيانات المصدر. ويمكن لكل شخص استخراج البيانات ومعرفة قيمتها من خلال دراسة المحتوى العميق.
تقوم مجموعة RDB2RDF W3C حاليًا بتوحيد لغة لاستخراج أطر وصف الموارد (RDF) من قواعد البيانات العلائقية . مثال شائع آخر لاستخراج المعرفة هو تحويل ويكيبيديا إلى بيانات منظمة وأيضًا رسم الخرائط للمعرفة الحالية (انظر DBpedia و Freebase ).