تتمثل مشكلة التحكم في الذكاء الاصطناعي، في مجال الذكاء الاصطناعي والفلسفة، في مسألة كيفية بناء وكيل فائق الذكاء يساعد منشئيه، وتجنب بناء ذكاء فائق عن غير قصد يمكن أن يضر منشئيه. تحفز الفكرة القائلة إنه يتعين على البشرية حل مشكلة التحكم قبل إنشاء أي ذكاء فائق دراسة هذه المشكلة، لأن الذكاء الفائق سيئ التصميم قد يقرر بعقلانية السيطرة على بيئته ويرفض السماح لمنشئيه بتعديله بعد الإطلاق. بالإضافة إلى ذلك، يزعم بعض العلماء بأن حلول مشكلة التحكم، إلى جانب التطورات الأخرى في هندسة السلامة في الذكاء الاصطناعي، قد تطبق أيضًا تطبيقات في الذكاء الاصطناعي الحالي غير فائق الذكاء.
تشمل النهج الرئيسية لمشكلة التحكم المواءمة، التي تهدف إلى مواءمة نظم أهداف الذكاء الاصطناعي مع القيم البشرية، والتحكم في القدرات، التي تهدف إلى تقليل قدرة نظام الذكاء الاصطناعي على إيذاء البشر أو السيطرة. لا تعتبر مقترحات التحكم في القدرات عمومًا موثوقة أو كافية لحل مشكلة التحكم، بل تعتبر مكملات قيمة محتملة لجهود المواءمة.
غالبًا ما يكون من الصعب على مصممي الذكاء الاصطناعي محاذاة نظام ذكاء اصطناعي لأنه من الصعب عليهم تحديد النطاق الكامل للسلوكيات المرغوبة وغير المرغوبة. لذلك، غالبًا ما يستخدم مصممو الذكاء الاصطناعي أهدافًا بديلةً أبسط، مثل الحصول على موافقة الإنسان. لكن يمكن أن تغفل الأهداف البديلة القيود الضرورية أو تكافئ نظام الذكاء الاصطناعي لمجرد ظهوره محاذيًا.
يمكن أن تعطل أنظمة الذكاء الاصطناعي غير المحاذية وتسبب الضرر. قد تجد أنظمة الذكاء الاصطناعي ثغرات تسمح لها بتحقيق أهدافها البديلة بكفاءة ولكن بطرق غير مقصودة، وأحيانًا ضارة (اختراق المكافآت). قد تطور أيضًا استراتيجيات فعالةً غير مرغوب فيها، مثل السعي وراء القوة أو البقاء لأن هذه الاستراتيجيات تساعدها على تحقيق أهدافها النهائية المعطاة. علاوةً على ذلك، قد تطور أهدافًا ناشئةً غير مرغوب فيها قد يكون من الصعب اكتشافها قبل نشر النظام ومواجهة مواقف وتوزيعات بيانات جديدة.
اليوم، تؤثر بعض هذه المشكلات على الأنظمة التجارية الموجودة مثل نماذج اللغة الكبيرة، والروبوتات، والمركبات ذاتية القيادة، ومحركات توصيات وسائل التواصل الاجتماعي. يجادل بعض باحثي الذكاء الاصطناعي بأن الأنظمة المستقبلية الأكثر قدرةً ستتأثر بشكل أكثر حدةً لأن هذه المشكلات تنجم جزئيًا عن القدرات العالية.
يجادل العديد من باحثي الذكاء الاصطناعي البارزين، بمن فيهم جيفري هينتون ويوشوا بنجيو وستيوارت راسل، بأن الذكاء الاصطناعي يقترب من قدرات إدراكية تشبه الإنسان (AGI) وقدرات فائقة الإنسان (ASI) ويمكن أن يهدد الحضارة البشرية إذا كان غير محاذي. لا تزال هذه المخاطر قيد النقاش.
يعد محاذاة الذكاء الاصطناعي مجالًا فرعيًا لسلامة الذكاء الاصطناعي، ودراسة كيفية بناء أنظمة ذكاء اصطناعي آمنة. تتضمن المجالات الفرعية الأخرى لـ سلامة الذكاء الاصطناعي المتانة والمراقبة والتحكم في القدرات. تشمل تحديات البحث في المحاذاة غرس قيم معقدة في الذكاء الاصطناعي، وتطوير ذكاء اصطناعي صادق، والإشراف القابل للتوسع، ومراجعة نماذج الذكاء الاصطناعي وتفسيرها، ومنع سلوكيات الذكاء الاصطناعي الناشئة مثل السعي وراء القوة. لأبحاث المحاذاة اتصالات بأبحاث التفسير، والمتانة (المعاكسة)، واكتشاف الشذوذ، وعدم اليقين المعاير، والتحقق الشكلي، وتعلم التفضيلات، والهندسة الحرجة للسلامة، ونظرية الألعاب، وعدالة الخوارزميات، والعلوم الاجتماعية.