إتقان موضوع بيانات التدريب والتحقق والاختبار

في تعلم الآلة، تعد دراسة وبناء الخوارزميات التي يمكن أن تتعلم من البيانات وتصدرها مهمة شائعة. تعمل مثل هذه الخوارزميات عن طريق إجراء تنبؤات أو قرارات تستند إلى البيانات من خلال بناء نموذج رياضي من البيانات المدخلة. عادةً ما تأتي البيانات المستخدمة لبناء النموذج النهائي من مجموعات بيانات متعددة. على وجه الخصوص، تُستخدم ثلاث مجموعات من البيانات بشكل شائع في المراحل المختلفة من إنشاء النموذج: مجموعات التدريب والتحقق من الصحة والاختبار.

في البداية يُلائم النموذج على مجموعة بيانات تدريب، وهي مجموعة من الأمثلة المستخدمة لملاءمة المعلمات (مثل أوزان الاتصالات بين الخلايا العصبية في الشبكات العصبية الاصطناعية) للنموذج. يُدرب النموذج (مثل مصنف بايز الساذج) على مجموعة بيانات التدريب باستخدام طريقة التعلم الإشرافي، على سبيل المثال باستخدام طرق التحسين مثل نزول التدرج أو نزول التدرج العشوائي. في الممارسة العملية، تتكون مجموعة بيانات التدريب غالبًا من أزواج من متجه الإدخال (أو قيمة عددية) ومتجه الإخراج المقابل (أو قيمة عددية)، حيث يُشار إلى مفتاح الإجابة عادةً باسم الهدف (أو الملصق). يُشغل النموذج الحالي مع مجموعة بيانات التدريب وينتج نتيجة، ثم يُقارن بالهدف، لكل متجه إدخال في مجموعة بيانات التدريب. بناءً على نتيجة المقارنة والخوارزمية التعلمية المحددة المستخدمة، تُضبط معلمات النموذج. يمكن أن يشمل ملاءمة النموذج كلًا من اختيار المتغيرات وتقدير المعلمات.

قراءة المقال الكامل على ويكيبيديا ←