فهم حقيقة التدريب المسبق التقابلي بين اللغة والصورة

التدريب المسبق التقابلي بين اللغة والصورة (بالإنجليزية: Contrastive Language-Image Pre-training؛ واختصاراً: CLIP) هو تقنية لتدريب زوج من نماذج الشبكات العصبية، أحدهما لفهم الصور والآخر لفهم النصوص، باستخدام هدف تقابلي (Contrastive objective).مكّنت هذه الطريقة من ظهور تطبيقات واسعة في مجالات متعددة، بما في ذلك الاسترجاع عابر الأنماط (Cross-modal retrieval)، وتوليد الصور من النصوص، والتصنيف الجمالي للصور.

قراءة المقال الكامل على ويكيبيديا ←