نظرة عامة شاملة حول ويسبر (نظام التعرف على الكلام)

ويسبر (الإنجليزية: Whisper) هو نموذج تعلم آلي للتعرف على الكلام والنسخ الصوتي، أنشأته شركة OpenAI وأُصدر لأول مرة كبرمجية مفتوحة المصدر في سبتمبر 2022.

يتمتع النموذج بالقدرة على نسخ الكلام باللغة الإنجليزية وعدة لغات أخرى، كما يمكنه ترجمة العديد من اللغات غير الإنجليزية إلى الإنجليزية.

وتدعي OpenAI أن الجمع بين بيانات التدريب المختلفة المستخدمة في تطويره أدى إلى تحسين التعرف على اللهجات، وضوضاء الخلفية، والمصطلحات التقنية مقارنة بالنهج السابقة.

يُعد ويسبر نموذجاً صوتياً للتعلم العميق بنظام الإشراف الضعيف، وتم بناؤه باستخدام بنية محول الترميز وفك التشفير.

أُصدرت النسخة (Whisper Large V2) في 8 ديسمبر 2022. ثم أُصدرت النسخة (Whisper Large V3) في نوفمبر 2023 خلال يوم مطوري OpenAI. وفي مارس 2025، أطلقت OpenAI نماذج نسخ جديدة تعتمد على المحول المولد مسبق التدريب 4 أومني وGPT-4o mini، وكلاهما يتميز بمعدلات خطأ أقل من ويسبر.

قراءة المقال الكامل على ويكيبيديا ←

مقالات ذات صلة