التنقيب في النصوص، وأحيانا يشار إليه باسم التنقيب في البيانات النصية، أي ما يعني تقريبا تحليل النصوص، هو عملية استخلاص معلومات عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون من خلال التقسيم للأنماط والاتجاهات من خلال وسائل مثل التعلم الإحصائي للانماط. وعادة ما يتطلب التنقيب في النصوص عملية هيكلة للنص المدخل (عادة التحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في صورة بيانات مهيكلة، وأخيرا تقييم وتفسير للناتج. ويشير المصطلح 'ذات جودة عالية' في مجال التنقيب في النصوص إلى مزيج من الصلة، والحداثة، الأهمية.
قراءة المقال الكامل على ويكيبيديا ←