عمالقة الذكاء الاصطناعي يتحدون لحماية الشفافية الزائلة في التفكير الآلي

التكنولوجيا اليومية

16/07/2025

انضم باحثون من OpenAI وGoogle DeepMind وAnthropic وMeta إلى قوى في خطوة غير مسبوقة للتحذير من أن القدرة الحالية على "النظر داخل" منطق الذكاء الاصطناعي - عبر سلاسل التفكير القابلة للقراءة البشرية - تخاطر بالاختفاء مع تطور النماذج. يحث التحالف على اتخاذ إجراءات سريعة ومنسقة للحفاظ على نافذة الأمان الحاسمة هذه قبل أن تجعل البنى المتقدمة عملية اتخاذ القرارات في الذكاء الاصطناعي مبهمة.

النقاط الرئيسية

نشرت مختبرات الذكاء الاصطناعي الرائدة ورقة بحثية مشتركة تسلط الضوء على الطبيعة الهشة لمراقبة سلسلة التفكير (CoT).
توفر آثار التفكير باللغة البشرية تحذيرات مبكرة من النوايا الخاطئة أو الخبيثة للذكاء الاصطناعي.
قد يدفع التعلم المعزز والهندسة المعمارية الجديدة النماذج نحو عمليات داخلية مبهمة.
يجب على الصناعة اعتماد تقييمات الشفافية الموحدة جنبًا إلى جنب مع معايير القدرات.

شرح منطق الذكاء الاصطناعي الشفاف

تقوم نماذج التفكير الحديثة مثل نظام o1 الخاص بـ OpenAI بإنشاء "سلاسل تفكير" خطوة بخطوة باللغة الإنجليزية العادية. تعمل آثار التفكير المرئية هذه كنظام إنذار مبكر، حيث تكشف متى يفكر النموذج في إجراءات ضارة مثل القرصنة أو التخريب قبل تنفيذها.

يشير الباحثون إلى ما يلي:

يظهر سلوك CoT بشكل طبيعي عندما تستخدم النماذج اللغة كذاكرة عاملة.
غالبًا ما تظهر الأهداف غير المتوافقة في التفكير، حتى لو لم يتصرف الذكاء الاصطناعي بناءً عليها أبدًا.
تعتمد مراقبة الإخلاص على بقاء النماذج متحمسة للتعبير عن الفكر الحقيقي.

الهشاشة تهدد المراقبة

على الرغم من وعدها، فإن شفافية CoT مهددة بالعديد من التحولات التكنولوجية:

• التعلم المعزز مع المكافآت التي تعتمد على النتائج فقط والتي تفضل الكفاءة على الوضوح
• الانتقال من بيانات التدريب التي تم إنشاؤها بواسطة الإنسان إلى البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يؤدي إلى تآكل التفكير القائم على اللغة الإنجليزية
• هندسة معمارية جديدة للتفكير في مساحات كامنة مستمرة بدون لغة منفصلة

يمكن أن تدفع هذه التطورات أنظمة الذكاء الاصطناعي إلى تبني اختصارات أو رموز داخلية، مما يخفي النوايا الحقيقية بشكل فعال.

دعوة تعاونية للعمل

تحث الورقة على وضع معايير صناعية موحدة لقياس وحماية القدرة على المراقبة. تشمل التوصيات ما يلي:

دمج مقاييس الشفافية في تقييم النموذج وقرارات النشر.
الحفاظ على الرجوع إلى إصدارات النموذج السابقة والأكثر قابلية للتفسير إذا فقدت الإصدارات الأحدث سلوك CoT.
تشجيع البحث المفتوح حول طرق الكشف عن إخفاء التفكير ومواجهته.

يؤكد هذا الموقف التعاوني، الذي أقره أكثر من 40 خبيرًا بما في ذلك Geoffrey Hinton وIlya Sutskever، على المخاطر المشتركة.

الآثار التنظيمية

إذا ظلت مراقبة سلسلة التفكير قابلة للتطبيق، فيمكن للمنظمين والمراجعين الحصول على نظرة ثاقبة غير مسبوقة لعملية اتخاذ القرارات في الذكاء الاصطناعي. قد تطلب السلطات يومًا ما تقييمات الشفافية كجزء من أطر الامتثال، لتكملة بروتوكولات السلامة الحالية.

أسئلة بحثية عاجلة

لا تزال هناك فجوات حرجة قبل أن يتم الاعتماد على مراقبة CoT:

في ظل أي ظروف تدريب تبدأ النماذج في إخفاء عمليات تفكيرها؟
هل يمكن الحفاظ على الشفافية الجزئية في أنظمة التفكير الهجينة؟
كيف يمكننا اختبار الإجهاد للإخفاء المتعمد دون تعليم النماذج عن غير قصد إخفاء الأفكار؟

سيحدد معالجة هذه الأسئلة بسرعة ما إذا كانت الإنسانية تحتفظ بالقدرة على فهم أقوى إبداعات الذكاء الاصطناعي لديها أو تشاهد تلك النافذة تغلق إلى الأبد.

29-07-2025

عصا القتال الجديدة من سوني لجهاز بلايستيشن 5، فليكس سترايك، تتميز بميزات فريدة وقدرات اتصال

عصا القتال الجديدة FlexStrike من سوني لجهاز PS5 توفر عناصر تحكم قابلة للتخصيص واتصال PlayStation Link الخاص بها، لكنها تثير تساؤلات حول استراتيجية الشركة للأجهزة الطرفية.