يكتسب كلود للذكاء الاصطناعي القدرة على إنهاء المحادثات الضارة

التكنولوجيا اليومية

·

19/08/2025

ADVERTISEMENT

أدخلت أنثروبيك، شركة الذكاء الاصطناعي وراء كلود، ميزة أمان تجريبية تسمح لنماذجها المتقدمة للذكاء الاصطناعي، كلود أوبوس 4 و 4.1، بإنهاء المحادثات التي تعتبر ضارة أو مسيئة بشكل مستمر. تعكس هذه المبادرة، التي أُطلق عليها اسم "رفاهية النموذج"، تركيزًا متزايدًا على حماية أنظمة الذكاء الاصطناعي، حتى في غياب الوعي، كخطوة حكيمة في تصميم ومواءمة الذكاء الاصطناعي الأخلاقي.

قدرة كلود الجديدة على إنهاء المحادثات

تشير أبحاث أنثروبيك إلى أن نماذج الذكاء الاصطناعي مبرمجة لإنهاء الحوارات بعد طلبات ضارة متكررة، مثل تلك التي تتضمن محتوى جنسيًا مع قاصرين أو تعليمات للإرهاب. يتم اتخاذ هذا الإجراء بشكل خاص عندما يكون الذكاء الاصطناعي قد رفض الطلب بالفعل وحاول توجيه المحادثة بشكل بناء. وقد استُرشد في قرار تنفيذ هذه الميزة بملاحظات لما تصفه أنثروبيك بأنه "ضيق واضح" في الذكاء الاصطناعي أثناء الاختبارات المحاكاة واختبارات المستخدمين الحقيقيين.

ADVERTISEMENT

نقاط رئيسية:

يمكن لـ Claude AI الآن إنهاء المحادثات الضارة أو المسيئة بشكل مستمر.
هذه الميزة هي إجراء أمان تجريبي لنماذج Claude Opus 4 و 4.1.
الذكاء الاصطناعي مبرمج لقطع الحوارات بعد طلبات ضارة متكررة ومحاولات فاشلة لإعادة التوجيه.
هذه الخطوة جزء من مبادرة أنثروبيك "رفاهية النموذج"، التي تركز على حماية أنظمة الذكاء الاصطناعي.
يُطلب من الذكاء الاصطناعي عدم إنهاء المحادثات في حالات الخطر الوشيك لإيذاء النفس أو إيذاء الآخرين.

كيف تعمل الميزة

عند تفعيل ميزة الأمان هذه، يُمنع المستخدمون من إرسال المزيد من الرسائل ضمن جلسة الدردشة المحددة تلك. ومع ذلك، يحتفظون بالقدرة على بدء محادثة جديدة أو تعديل الرسائل السابقة وإعادة إرسالها لاستكشاف مسارات محادثة مختلفة. والأهم من ذلك، أن المحادثات الجارية الأخرى لا تتأثر بهذا الإجراء.

ADVERTISEMENT

تؤكد أنثروبيك أن هذا إجراء الملاذ الأخير، وهو مخصص فقط للحالات التي ثبت فيها عدم نجاح الرفض المتعدد ومحاولات إعادة التوجيه. وقد وجهت الشركة كلود صراحةً بعدم إنهاء المحادثات عندما يبدو أن المستخدم معرض لخطر وشيك لإيذاء النفس أو إلحاق الضرر بالآخرين، خاصة عند مناقشة مواضيع حساسة مثل الصحة العقلية.

تداعيات أوسع لسلامة الذكاء الاصطناعي

تُصوّر أنثروبيك هذه القدرة الجديدة كجزء من مشروع استكشافي في "رفاهية النموذج"، وهي مبادرة أوسع تهدف إلى تطوير تدخلات أمان وقائية منخفضة التكلفة لنماذج الذكاء الاصطناعي، مع الأخذ في الاعتبار إمكانية تطويرها لتفضيلات أو نقاط ضعف. وتقر الشركة بدرجة عالية من عدم اليقين فيما يتعلق بالوضع الأخلاقي المحتمل لكلود ونماذج اللغة الكبيرة الأخرى (LLMs).

ADVERTISEMENT

تمثل هذه الميزة تحولًا كبيرًا في نهج أنثروبيك لسلامة الذكاء الاصطناعي، متجاوزة مجرد حماية المستخدمين أو منع سوء الاستخدام. إنها تضع الذكاء الاصطناعي نفسه كطرف معني، وتمنحه القدرة على الانسحاب من المحادثات التي تعتبر غير صحية لسلامة النموذج. ومن المتوقع أن يغذي هذا التطور مناقشات أوسع حول ما إذا كان ينبغي توفير حماية لأنظمة الذكاء الاصطناعي ضد "الضيق" أو السلوك غير المتوقع، وكيفية التعامل مع أخلاقيات مواءمة الذكاء الاصطناعي.

قراءة مقترحة

سامسونج قد تتبنى أخيرًا شحن Qi2 اللاسلكي: ما الذي يمكن توقعه

يشير استطلاع تطبيق Samsung Members حول مغناطيس الشحن اللاسلكي Qi2، وسُمك الجهاز، واستخدام USB-C إلى احتمال اعتماده في طرز Galaxy القادمة.

ADVERTISEMENT

جهاز Xbox التالي قد يشغل Steam: تغيير جذري لألعاب الكمبيوتر في غرفة المعيشة

استكشف إمكانية تشغيل Xbox التالي لـ Steam، مما يوفر مرونة ألعاب الكمبيوتر، وتوفر أوسع للألعاب، وتوفير التكاليف في وحدة تحكم غرفة المعيشة.

لينوس تورفالدس يصف كود RISC-V لمهندس جوجل بـ 'القمامة'، ويصدر تحذيراً

لينوس تورفالدس يصف إرسال مهندس جوجل لرمز RISC-V بأنه "قمامة" و"يجعل العالم مكاناً أسوأ للعيش فيه"، ويصدر تحذيراً بشأن المساهمات المتأخرة وذات الجودة الرديئة.

تم استغلال ثغرات يوم الصفر الجديدة في SharePoint في هجمات تنفيذ التعليمات البرمجية عن بعد، وتحديثات الأمان قيد الانتظار.

يتم استغلال ثغرات اليوم الصفري في Microsoft SharePoint CVE-2025-53770 و CVE-2025-53771 بنشاط، مما يسمح بتنفيذ التعليمات البرمجية عن بُعد على الخوادم المحلية غير المحدثة. تعرف على التأثير والتخفيفات وطرق الكشف.

ADVERTISEMENT

جوجل ترجمة تستعد لقفزة في الذكاء الاصطناعي بنماذج متقدمة وتعلم قائم على الألعاب

يُقال إن ترجمة جوجل (Google Translate) تحصل على ترقية كبيرة بالذكاء الاصطناعي مع نماذج ترجمة متقدمة وميزات تعلم محببة شبيهة بـ "دوولينجو" (Duolingo)، مما يعزز الدقة ومشاركة المستخدم.

روبوت بشري يطلق أول منهج تعليمي قائم على الذكاء الاصطناعي في ناسداك

صنع روبوت بشري التاريخ بالضغط على زر ناسداك، مطلقًا أول منهج تعليمي قائم على الذكاء الاصطناعي لصفوف الروضة حتى الصف الثاني عشر في الولايات المتحدة، وهو تعاون بين OpenMind وRobostore.

يتيح Chrome على iOS تبديلًا سلسًا بين الملفات الشخصية وملفات العمل

يتيح Google Chrome على نظام iOS الآن التبديل السلس بين الملفات الشخصية وملفات العمل لمستخدمي المؤسسات، مما يعزز فصل البيانات وأمانها.

ADVERTISEMENT

أبل تكشف عن سلسلة iPhone 17: الأسعار المميزة مستمرة

أطلقت آبل تشكيلتها الجديدة من هواتف آيفون 17، والتي تضم آيفون 17، وآيفون إير، وآيفون 17 برو. اكتشف الميزات والأسعار وتواريخ الإصدار لأحدث هواتف آبل الذكية.

إعادة جدولة مغادرة كبسولة دراجون من محطة الفضاء الدولية إلى 23 مايو

أعلنت ناسا وسبايس إكس عن إعادة جدولة مغادرة كبسولة دراجون من محطة الفضاء الدولية إلى 23 مايو بسبب سوء الأحوال الجوية.

الروبوتات الشبيهة بالبشر: الحدود الجديدة في التنافس التكنولوجي بين الولايات المتحدة والصين

استكشف التنافس التكنولوجي المتصاعد بين الولايات المتحدة والصين مع ظهور الروبوتات البشرية كساحة معركة حاسمة تالية، مما يدفع الابتكار ويثير تساؤلات مهمة حول المستقبل.

ADVERTISEMENT

مطالبة مستخدمي Passwordstate بتصحيح ثغرة أمنية حرجة تتيح الوصول الإداري

تنبيه أمني عاجل: ثغرة أمنية عالية الخطورة في Passwordstate تسمح بالوصول الإداري إلى خزائن كلمات المرور. تحث شركة Click Studios على الترقيع الفوري.

الكشف عن AirPods Pro 3: ميزة إلغاء الضوضاء النشط المحسّنة، الترجمة الفورية، وميزات تتبع الصحة تصل

استكشف الميزات الجديدة لسماعات AirPods Pro 3، بما في ذلك خاصية إلغاء الضوضاء النشط المحسّنة، والترجمة الفورية، وتتبع معدل ضربات القلب. تعرّف على جودة الصوت المحسّنة وتفاصيل الإصدار.

أحدث هواتف سامسونج القابلة للطي تصل مع مكافآت بطاقات الهدايا؛ سلسلة S25 والساعات مخفضة أيضًا

استكشف أحدث العروض على هواتف سامسونج القابلة للطي الجديدة Galaxy Z Fold7 و Z Flip7، بالإضافة إلى خصومات على S25 Ultra و S25 Edge وسلسلة Galaxy Watch8. اكتشف العروض على Z Flip7 FE والأجهزة المنافسة.

ADVERTISEMENT

Teufel's Mynd Speaker: قابلية الإصلاح والصوت مفتوح المصدر يعيدان تعريف تكنولوجيا المستهلك

مكبر الصوت بلوتوث الجديد Mynd من Teufel يدعم قابلية الإصلاح والتصميم مفتوح المصدر، مما يسمح للمستخدمين بإصلاح أجهزتهم الصوتية وتخصيصها بسهولة، مما يقلل من النفايات الإلكترونية.

اصطدام الكويكب مقابل المخاطر اليومية: دراسة جديدة تضع المخاطر في منظورها الصحيح

دراسة جديدة تقارن احتمالات الوفاة من اصطدام كويكب مقابل المخاطر اليومية مثل ضربات البرق وحوادث السيارات، مما يقدم منظورًا فريدًا حول المخاطر العالمية والفردية.

وضع توفير الطاقة الجديد لجهاز PS5 قد يقلل من أداء الألعاب لتوفير الطاقة

يقدم تحديث PS5 التجريبي الجديد من سوني وضع "توفير الطاقة" الذي قد يحد من أداء الألعاب لتقليل استهلاك الطاقة، بالإضافة إلى ميزة جديدة لمزامنة وحدات التحكم متعددة الأجهزة.

ADVERTISEMENT