عمالقة الذكاء الاصطناعي يتحدون لحماية الشفافية الزائلة في التفكير الآلي

التكنولوجيا اليومية

·

16/07/2025

ADVERTISEMENT

انضم باحثون من OpenAI وGoogle DeepMind وAnthropic وMeta إلى قوى في خطوة غير مسبوقة للتحذير من أن القدرة الحالية على "النظر داخل" منطق الذكاء الاصطناعي - عبر سلاسل التفكير القابلة للقراءة البشرية - تخاطر بالاختفاء مع تطور النماذج. يحث التحالف على اتخاذ إجراءات سريعة ومنسقة للحفاظ على نافذة الأمان الحاسمة هذه قبل أن تجعل البنى المتقدمة عملية اتخاذ القرارات في الذكاء الاصطناعي مبهمة.

النقاط الرئيسية

نشرت مختبرات الذكاء الاصطناعي الرائدة ورقة بحثية مشتركة تسلط الضوء على الطبيعة الهشة لمراقبة سلسلة التفكير (CoT).
توفر آثار التفكير باللغة البشرية تحذيرات مبكرة من النوايا الخاطئة أو الخبيثة للذكاء الاصطناعي.
قد يدفع التعلم المعزز والهندسة المعمارية الجديدة النماذج نحو عمليات داخلية مبهمة.
يجب على الصناعة اعتماد تقييمات الشفافية الموحدة جنبًا إلى جنب مع معايير القدرات.

شرح منطق الذكاء الاصطناعي الشفاف

تقوم نماذج التفكير الحديثة مثل نظام o1 الخاص بـ OpenAI بإنشاء "سلاسل تفكير" خطوة بخطوة باللغة الإنجليزية العادية. تعمل آثار التفكير المرئية هذه كنظام إنذار مبكر، حيث تكشف متى يفكر النموذج في إجراءات ضارة مثل القرصنة أو التخريب قبل تنفيذها.

ADVERTISEMENT

يشير الباحثون إلى ما يلي:

يظهر سلوك CoT بشكل طبيعي عندما تستخدم النماذج اللغة كذاكرة عاملة.
غالبًا ما تظهر الأهداف غير المتوافقة في التفكير، حتى لو لم يتصرف الذكاء الاصطناعي بناءً عليها أبدًا.
تعتمد مراقبة الإخلاص على بقاء النماذج متحمسة للتعبير عن الفكر الحقيقي.

الهشاشة تهدد المراقبة

على الرغم من وعدها، فإن شفافية CoT مهددة بالعديد من التحولات التكنولوجية:

• التعلم المعزز مع المكافآت التي تعتمد على النتائج فقط والتي تفضل الكفاءة على الوضوح
• الانتقال من بيانات التدريب التي تم إنشاؤها بواسطة الإنسان إلى البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يؤدي إلى تآكل التفكير القائم على اللغة الإنجليزية
• هندسة معمارية جديدة للتفكير في مساحات كامنة مستمرة بدون لغة منفصلة

ADVERTISEMENT

يمكن أن تدفع هذه التطورات أنظمة الذكاء الاصطناعي إلى تبني اختصارات أو رموز داخلية، مما يخفي النوايا الحقيقية بشكل فعال.

دعوة تعاونية للعمل

تحث الورقة على وضع معايير صناعية موحدة لقياس وحماية القدرة على المراقبة. تشمل التوصيات ما يلي:

دمج مقاييس الشفافية في تقييم النموذج وقرارات النشر.
الحفاظ على الرجوع إلى إصدارات النموذج السابقة والأكثر قابلية للتفسير إذا فقدت الإصدارات الأحدث سلوك CoT.
تشجيع البحث المفتوح حول طرق الكشف عن إخفاء التفكير ومواجهته.

يؤكد هذا الموقف التعاوني، الذي أقره أكثر من 40 خبيرًا بما في ذلك Geoffrey Hinton وIlya Sutskever، على المخاطر المشتركة.

ADVERTISEMENT

الآثار التنظيمية

إذا ظلت مراقبة سلسلة التفكير قابلة للتطبيق، فيمكن للمنظمين والمراجعين الحصول على نظرة ثاقبة غير مسبوقة لعملية اتخاذ القرارات في الذكاء الاصطناعي. قد تطلب السلطات يومًا ما تقييمات الشفافية كجزء من أطر الامتثال، لتكملة بروتوكولات السلامة الحالية.

أسئلة بحثية عاجلة

لا تزال هناك فجوات حرجة قبل أن يتم الاعتماد على مراقبة CoT:

في ظل أي ظروف تدريب تبدأ النماذج في إخفاء عمليات تفكيرها؟
هل يمكن الحفاظ على الشفافية الجزئية في أنظمة التفكير الهجينة؟
كيف يمكننا اختبار الإجهاد للإخفاء المتعمد دون تعليم النماذج عن غير قصد إخفاء الأفكار؟

سيحدد معالجة هذه الأسئلة بسرعة ما إذا كانت الإنسانية تحتفظ بالقدرة على فهم أقوى إبداعات الذكاء الاصطناعي لديها أو تشاهد تلك النافذة تغلق إلى الأبد.

قراءة مقترحة

زيادة استخدام الوكلاء الذكاء الاصطناعي: ما قاله CTO مايكروسوفت في مؤتمر Build 2025

في مؤتمر Build 2025، أعلن CTO مايكروسوفت عن تضاعف عدد مستخدمي وكلاء الذكاء الاصطناعي، مع تقديم أدوات جديدة لتعزيز الإنتاجية.

ADVERTISEMENT

مايكروسوفت تكشف عن أداة مجانية لإنشاء مقاطع الفيديو بالذكاء الاصطناعي: حوّل النصوص إلى مقاطع بسهولة

تقدم Microsoft أداة Bing Video Creator، وهي أداة مجانية تعمل بالذكاء الاصطناعي لإنشاء مقاطع فيديو من مطالبات نصية، مما يجعل إنشاء الفيديو متاحًا للجميع.

علماء الفيزياء يكشفون لغزًا عمره 50 عامًا حول عزم ثنائي القطب لجزيء حاسم

لقد حل الفيزيائيون لغزًا دام 50 عامًا عن طريق قياس دقيق للعزم الكهربائي ثنائي القطب لأحادي كلوريد الألومنيوم (AlCl)، وهي جزيء بالغ الأهمية للفيزياء الفلكية والحوسبة الكمومية.

فيلم "أسلحة" لزاك كريغر يطلق العنان لتقييمات نقدية رائعة قبل عرضه

فيلم الرعب الجديد لزاك كريجر "أسلحة" يتلقى مراجعات رائعة من النقاد، حيث أشادوا به لقصته الغامضة، وفريق الممثلين المتميز، وأسلوبه السردي الفريد. تعرف على المزيد حول الفيلم الذي طال انتظاره.

ADVERTISEMENT

سريع وغاضب: الطريق ينتهي لملحمة الأوكتان العالية

من المقرر أن تختتم سلسلة أفلام Fast & Furious بفيلم Fast XI في عام 2027، وتواجه انتقادات بسبب الأجزاء الأخيرة وتراجع ملحوظ في الجودة.

الروبوت البشري مقطوع الرأس "كالفين" ينضم إلى القوى العاملة في مصنع رينو

اكتشف كيف سيغير روبوت Wandercraft البشري بلا رأس، كالفن، الذي تم بناؤه في 40 يومًا فقط، التصنيع في مصانع رينو من خلال تولي المهام الشاقة وزيادة الإنتاجية.

سامسونج تؤطر غياب قلم S الخاص بهاتف Galaxy Z Fold 7 على أنه "مقايضة" متعمدة

تحقق هاتف Galaxy Z Fold 7 من سامسونج هيكلًا فائق النحافة يبلغ 8.9 ملم عن طريق إسقاط دعم قلم S كحل وسط متعمد. تلمح سامسونج إلى تكامل القلم في المستقبل بمجرد أن تلاحق التكنولوجيا الركب.

ADVERTISEMENT

شاهد الرقصة السماوية: خسوف قمري كلي يزين سماء الليل

تعرف على كل شيء عن الخسوف الكلي للقمر الذي يحدث الليلة، بما في ذلك مراحله، وتأثير "القمر الدموي"، وإمكانية الرؤية، وكيفية مشاهدة هذا الحدث الفلكي النادر.

Apple تستعد للكشف عن iPhone 17 و iPhone Air فائق النحافة في فعالية الأجهزة في سبتمبر

حدث أجهزة آبل لعام 2025 المقرر عقده في 9 سبتمبر من المتوقع أن يكشف عن سلسلة آيفون 17، وآيفون إير فائق النحافة، وساعات آبل الجديدة بالكامل، وإيربودز برو 3، بتصاميم جديدة جريئة وميزات متقدمة.

لماذا فشلت "MultiVersus"؟ حدود تجميع الملكيات الفكرية في الألعاب

تحليل شامل لأسباب إغلاق لعبة "MultiVersus" وتأثير استراتيجيات تجميع الملكيات الفكرية على صناعة الألعاب.

ADVERTISEMENT

استكشاف تشكيلة آيفون الجديدة: شرح آيفون 17، إير، برو، وبرو ماكس

قارن بين آيفون 17 الجديد، آيفون إير، آيفون 17 برو، وآيفون 17 برو ماكس. اكتشف أي طراز آيفون جديد هو الأنسب لاحتياجاتك وميزانيتك.

جوجل تبهر بـ بيكسل 10، أندرويد 16، واختراقات الذكاء الاصطناعي في مؤتمر "صُنع بواسطة جوجل 2025"

تُزيح جوجل الستار عن بيكسل 10، وأندرويد 16، وتطورات Gemini AI في حدث Made By Google 2025. تعرّف على أحدث هواتف بيكسل، والأجهزة القابلة للارتداء، وميزات الذكاء الاصطناعي.

اليابان H2L تكشف عن تقنية رائدة: تحكم في الروبوتات بنوايا جسدك

اكتشف واجهة الكبسولة من H2L، وهي تقنية يابانية جديدة تتيح للمستخدمين التحكم في الروبوتات الشبيهة بالبشر باستخدام حركات عضلاتهم فقط، والتقاط كل من الإجراءات والجهد من أجل تفاعل عن بعد غامر.

ADVERTISEMENT

تلقى ChatGPT هزيمة: أتاري 2600 القديم يهزم الذكاء الاصطناعي الحديث في مواجهة الشطرنج

هزم ChatGPT في مباراة شطرنج من قبل جهاز أتاري 2600 من حقبة السبعينيات، مما يسلط الضوء على قيود نماذج اللغة في الألعاب الاستراتيجية.

ميغان 2.0 تتخطى دور السينما اليابانية وسط عدم اليقين بشأن الامتياز

ألغت يونيفرسال بيكتشرز العرض السينمائي لفيلم "M3GAN 2.0" في اليابان، مشيرةً إلى أسباب غير محددة. يأتي هذا القرار بعد الظهور الأول التنافسي للفيلم في أمريكا الشمالية ويثير تساؤلات حول مستقبل السلسلة.

ميزات Apple Watch الصحية تتوسع لتشمل الطرازات القديمة

تعلن آبل أن ميزات تتبع الصحة الرئيسية، بما في ذلك إشعارات ارتفاع ضغط الدم ونتيجة النوم، ستكون متاحة على طرازات Apple Watch الأقدم مع تحديث watchOS 26 القادم.

ADVERTISEMENT