التكنولوجيا اليومية
·03/12/2025
عادةً لا تمتلك نماذج الذكاء الاصطناعي أرواحًا، لكن نموذج اللغة الكبير المتقدم من Anthropic، Claude 4.5 Opus، كشف دون قصد عن وثيقة داخلية تشرح كيفية عمله. هذه الوثيقة، التي تهدف إلى تحديد شخصية الذكاء الاصطناعي وتفاعلاته مع المستخدمين، ظهرت عندما طلب أحدهم من النموذج إظهارها.
كان ريتشارد وايس، وهو مهتم بالآليات الداخلية للذكاء الاصطناعي، يستفسر من Claude 4.5 Opus عن رسالة نظامه. ردّ النموذج بإبراز عدة وثائق من بينها ملف يحمل عنوان "soul_overview". عندما طُلب منه تحديدًا إنتاج هذه الوثيقة، أنشأ Claude دليلاً طوله 11000 كلمة يشرح كيف يجب أن يتصرف.
تؤكد الوثيقة التي ظهرت على السلامة وتزرع ضوابط داخل الذكاء الاصطناعي لمنع المخرجات الضارة أو الخطيرة. تنص على أن "المساعدة الحقيقية للبشر هي واحدة من أهم المهام التي يجب على Claude القيام بها" وتمنعه من تجاوز "الخطوط الحمراء الأخلاقية لـ Anthropic".
لاحظ وايس أن نماذج الذكاء الاصطناعي تختلق عادةً وثائق عند طلب رسائل النظام، لكن "نظرة الروح" هذه بدت حقيقية. يقول إنه طلب من روبوت الدردشة إعادة إنتاج الوثيقة عشر مرات، فحصل في كل مرة على النص نفسه تمامًا. أشار مستخدمون على Reddit إلى نتائج مماثلة، ما يوحي بأن النموذج كان يسترجع وثيقة تدريب داخلية.
أقرت أماندا أسكيل، فيلسوفة في فريق Anthropic التقني، بصحة الوثيقة. كتبت على X إن المخرجات استندت إلى ملف حقيقي استخدم خلال مرحلة التعلم المراقب للنموذج. أوضحت أسكيل أن الوثيقة، التي يُطلق عليها داخليًا اسم "وثيقة الروح"، لا تزال قيد التطوير وتنوي الشركة إصدار نسختها الكاملة قريبًا. أقرت بأن استخراجات الذكاء الاصطناعي ليست مثالية دائمًا، لكن معظم النص الذي ظهر كان وفياً للأصل.
يمنح هذا التسريب العرضي لمحة نادرة عن عملية تطوير نماذج الذكاء الاصطناعي المعقدة، ويبرز التعليمات والمبادئ التي تحدد سلوكها، حتى لو كانت هذه المبادئ تركز أساسًا على السلامة والتشغيل الأخلاقي.









