محول الرؤية (ViT) هو محول مصمم لـالرؤية الحاسوبية. ويحلل ViT صورة الإدخال إلى سلسلة من الرقع (بدلًا من تحليل النص إلى رموز)، ثم يحوّل كل رقعة إلى متجه، ويُسقطه إلى بُعد أصغر بضرب مصفوفي واحد. ثم تُعالَج تضمينات هذه المتجهات بواسطة مُرمِّز محول كما لو كانت تضمينات رموز.
صُممت محولات الرؤية لتكون بدائل لـالشبكات العصبية الالتفافية (CNN) في تطبيقات الرؤية الحاسوبية. ولها انحيازات استقرائية مختلفة، واستقرار مختلف في التدريب، وكفاءة مختلفة في استغلال البيانات. وبالمقارنة مع الشبكات العصبية الالتفافية، فإن محولات الرؤية أقل كفاءة من حيث البيانات، لكنها أعلى سعة. وبعض أكبر نماذج الرؤية الحاسوبية الحديثة هي من نوع ViT، مثل نموذج يضم 22 مليار معامل.
وبعد نشره، اقتُرحت له متغيرات كثيرة، منها معماريات هجينة تجمع خصائص من محولات الرؤية ومن الشبكات العصبية الالتفافية. ووجدت محولات الرؤية تطبيقات في التعرف على الصور، وتقسيم الصور، والتنبؤ بالطقس، والقيادة الذاتية.