معيار OpenAI الجديد يكشف عن كفاءة الذكاء الاصطناعي المتزايدة في مهام العمل الواقعية

التكنولوجيا اليومية

التكنولوجيا اليومية

·

01/10/2025

button icon
ADVERTISEMENT

قدمت OpenAI معيارًا جديدًا، GDPval، مصممًا لتقييم أداء الذكاء الاصطناعي في المهام ذات القيمة الاقتصادية والواقعية في مختلف المهن. تهدف هذه المبادرة إلى ترسيخ المناقشات حول الذكاء الاصطناعي في مكان العمل بأدلة ملموسة، ومعالجة المخاوف من أن العديد من الشركات لا ترى عوائد كبيرة على استثماراتها في الذكاء الاصطناعي.

النقاط الرئيسية

معيار GDPval

تم تطوير معيار GDPval (قيمة الناتج المحلي الإجمالي) الخاص بـ OpenAI لسد الفجوة بين أداء الذكاء الاصطناعي في المشكلات النظرية وفائدته في سيناريوهات العمل العملية. يستمد التقييم المهام من المهن الرئيسية داخل الصناعات التي تساهم بشكل كبير في الناتج المحلي الإجمالي للولايات المتحدة، مثل العقارات والحكومة والتصنيع والمالية. تم تجنيد متخصصين بمتوسط ​​14 عامًا من الخبرة لتصميم مهام واقعية وتقديم أمثلة مكتوبة من قبل الإنسان لإكمال المهام بنجاح. تتراوح هذه المهام من صياغة المذكرات القانونية والمخططات الهندسية إلى إدارة تفاعلات دعم العملاء وإنشاء خطط الرعاية التمريضية.

ADVERTISEMENT

رؤى حول أداء الذكاء الاصطناعي

كشفت الاختبارات الأولية باستخدام GDPval على 220 مهمة أن نماذج الذكاء الاصطناعي الرائدة تقترب من جودة المستوى البشري في العديد من المجالات. حقق Claude Opus 4.1 أعلى معدل فوز وتعادل بنسبة 47.6٪ مقابل المهام المكتملة من قبل الإنسان، متفوقًا في مجالات مثل تنسيق المستندات وتخطيط الشرائح. تبع ذلك GPT-5 high بمعدل فوز وتعادل بنسبة 38.8٪، مما يدل على القوة في الدقة واتباع التعليمات. سجل GPT-4o نسبة 12.4٪. كان أداء نماذج الذكاء الاصطناعي جيدًا بشكل خاص في أدوار مثل العدادين وموظفي الإيجار، وموظفي الشحن والمخزون، ومديري المبيعات، ومطوري البرامج. وعلى العكس من ذلك، واجهوا المزيد من التحديات في المهام من المهندسين الصناعيين والصيادلة والمديرين الماليين ومحرري الفيديو.

ADVERTISEMENT

السرعة والتكلفة ومستقبل العمل

بالإضافة إلى الجودة، تدعي OpenAI أن نماذج الذكاء الاصطناعي هذه يمكنها إكمال مهام GDPval أسرع بحوالي 100 مرة وبتكلفة أقل 100 مرة من الخبراء البشريين. على الرغم من هذه القدرات الرائعة، تؤكد OpenAI أن الذكاء الاصطناعي من غير المرجح أن يحل محل العمال البشريين بالكامل. تقترح الشركة أن دور الذكاء الاصطناعي سيكون التعامل مع المهام الروتينية، مما يسمح للمهنيين البشريين بالتركيز بشكل أكبر على الجوانب الإبداعية والاستراتيجية والقائمة على الحكم في عملهم، وبالتالي تعزيز الإنتاجية الإجمالية والرضا الوظيفي.

قراءة مقترحة

21-08-2025
جوجل جيميني للمنزل: حقبة جديدة من المساعدة المنزلية الذكية تبدأ
فاجأت جوجل بـ "جيميني للمنزل"، وهي ترقية قوية للذكاء الاصطناعي من شأنها تعزيز المساعدة المنزلية بمحادثات طبيعية وإدارة مهام متقدمة، وسيتم طرحها في أكتوبر.
ADVERTISEMENT
25-06-2025
غلوبانت تؤسس مقرها في الشرق الأوسط وسط ارتفاع الإيرادات
تفتتح جلوبانت مقرها الرئيسي في الشرق الأوسط، مما يشير إلى توسع استراتيجي وسط ارتفاع الإيرادات الإقليمية وتركيزها على سوق التكنولوجيا المزدهر.
26-06-2025
الذكاء الاصطناعي Gemini من جوجل: نصوصك، وصولهم، خصوصيتك؟
تثير سياسة جوجل الجديدة لـ Gemini AI مخاوف تتعلق بالخصوصية حيث تكتسب إمكانية الوصول إلى رسائل المستخدم ومكالماته بغض النظر عن إعدادات النشاط، مما يثير جدلاً حول التحكم في البيانات.
28-08-2025
ساعة أبل السلسلة 11 وألترا 3 تُطلق قريباً: ماذا نتوقع؟
حدث آبل القادم "المذهل" في 9 سبتمبر من المقرر أن يكشف عن ساعة أبل ووتش سيريس 11 وربما ألترا 3، مع تواريخ إصدار متوقعة في منتصف سبتمبر. اكتشف شائعات التصميم والمعالج والبطارية وميزات الصحة.
ADVERTISEMENT
07-10-2025
سامسونج تضع معيارًا جديدًا مع أصغر مستشعر كاميرا بدقة 200 ميجابكسل على الإطلاق للهواتف الذكية
تطرح سامسونج أصغر مستشعر كاميرا هاتف في العالم بدقة 200 ميجابكسل، والذي سيظهر لأول مرة في هاتف أوبو فايند X9 برو. يتميز بتقنيات تقريب متقدمة، والتصوير عالي السرعة، وتقنية HDR، وفيديو بدقة 8K، مما يمثل قفزة كبيرة في تكنولوجيا التصوير الفوتوغرافي عبر الهواتف المحمولة.
20-06-2025
انفجار سفينة الفضاء ستار شيب التابعة لسبيس إكس في تكساس خلال اختبار فاشل
انفجر النموذج الأولي لمركبة سبيس إكس ستارشيب، السفينة 36، في منشأة اختبار في تكساس في 18 يونيو، مما أثر على الاستعدادات للرحلة 10. وعزا الرئيس التنفيذي إيلون ماسك السبب إلى فشل في خزان الضغط المركب (COPV). وتضيف هذه الحادثة إلى النكسات الأخيرة للصاروخ المتجه إلى القمر والمريخ.
12-11-2025
أهم اتجاهات التكنولوجيا المتنقلة التي يجب مراقبتها بحلول عام 2025
أهم اتجاهات التكنولوجيا المتنقلة التي يجب مراقبتها بحلول عام 2025
ADVERTISEMENT
13-10-2025
صعود الآلات: الروبوتات الشبيهة بالبشر تدخل أرض المصنع
استكشف التكامل المتزايد للروبوتات البشرية المدعومة بالذكاء الاصطناعي في أرضيات المصانع، وتأثيرها على كفاءة التصنيع، والسباق العالمي للهيمنة التكنولوجية.
02-07-2025
يمكن لمستخدمي Android الآن تعديل الرسائل المرسلة إلى أجهزة iPhone: ما تحتاج إلى معرفته
يمكن لمستخدمي Android الآن تعديل الرسائل المرسلة إلى أجهزة iPhone، وهي خطوة مهمة في المراسلة عبر الأنظمة الأساسية، على الرغم من بعض القيود الحالية.
16-12-2025
حد التمرير المخفي لساعة تنبيه iPhone يفاجئ المستخدمين
اكتشف حد التمرير المخفي والمدهش في منتقي وقت المنبه في iPhone، وهو عيب تصميمي يتوقف عند الساعة 4:39 ويترك المستخدمين مفتونين.
ADVERTISEMENT