يستخدم نظام الكمبيوتر المعروف باسم نظام استرجاع الصور لتصفحها والبحث عنها واستردادها من قاعدة بيانات كبيرة للصور الرقمية. معظم الطرق التقليدية والمعروفة لاسترجاع الصور تستخدم إضافة الميتاداتا مثل التسميات التوضيحية أو الكلمات الرئيسية أو العناوين أو الأوصاف، لتمكين الاسترجاع عبر مصطلحات التعليقات التوضيحية. يستغرق التعليق التوضيحي للصور يدويًا وقتًا طويلاً ويصعب تنفيذه ويكلف الكثير من المال. لحل هذه المشكلة، تم إجراء الكثير من الأبحاث حول التعليق التوضيحي التلقائي للصور؛ من أجل معالجة هذا الأمر، تم إجراء قدر كبير من الأبحاث حول التعليق التوضيحي التلقائي للصور. بالإضافة إلى ذلك، فإن تزايد تطبيقات الويب الاجتماعية والويب الدلالي قد ألهم تطوير العديد من أدوات التعليقات التوضيحية للصور على شبكة الإنترنت.
تم تطوير أول نظام لاسترجاع الصور المستند إلى الحواسيب الصغيرة في معهد ماساتشوستس للتكنولوجيا، في التسعينيات، بواسطة بانديريدي براو هو-ميت تونغ وستوارت مادنيك.
أظهرت مقالة استقصائية عام 2008 التطورات بعد عام 2007.