معيار OpenAI الجديد يكشف عن كفاءة الذكاء الاصطناعي المتزايدة في مهام العمل الواقعية

التكنولوجيا اليومية

التكنولوجيا اليومية

·

01/10/2025

button icon
ADVERTISEMENT

قدمت OpenAI معيارًا جديدًا، GDPval، مصممًا لتقييم أداء الذكاء الاصطناعي في المهام ذات القيمة الاقتصادية والواقعية في مختلف المهن. تهدف هذه المبادرة إلى ترسيخ المناقشات حول الذكاء الاصطناعي في مكان العمل بأدلة ملموسة، ومعالجة المخاوف من أن العديد من الشركات لا ترى عوائد كبيرة على استثماراتها في الذكاء الاصطناعي.

النقاط الرئيسية

معيار GDPval

تم تطوير معيار GDPval (قيمة الناتج المحلي الإجمالي) الخاص بـ OpenAI لسد الفجوة بين أداء الذكاء الاصطناعي في المشكلات النظرية وفائدته في سيناريوهات العمل العملية. يستمد التقييم المهام من المهن الرئيسية داخل الصناعات التي تساهم بشكل كبير في الناتج المحلي الإجمالي للولايات المتحدة، مثل العقارات والحكومة والتصنيع والمالية. تم تجنيد متخصصين بمتوسط ​​14 عامًا من الخبرة لتصميم مهام واقعية وتقديم أمثلة مكتوبة من قبل الإنسان لإكمال المهام بنجاح. تتراوح هذه المهام من صياغة المذكرات القانونية والمخططات الهندسية إلى إدارة تفاعلات دعم العملاء وإنشاء خطط الرعاية التمريضية.

ADVERTISEMENT

رؤى حول أداء الذكاء الاصطناعي

كشفت الاختبارات الأولية باستخدام GDPval على 220 مهمة أن نماذج الذكاء الاصطناعي الرائدة تقترب من جودة المستوى البشري في العديد من المجالات. حقق Claude Opus 4.1 أعلى معدل فوز وتعادل بنسبة 47.6٪ مقابل المهام المكتملة من قبل الإنسان، متفوقًا في مجالات مثل تنسيق المستندات وتخطيط الشرائح. تبع ذلك GPT-5 high بمعدل فوز وتعادل بنسبة 38.8٪، مما يدل على القوة في الدقة واتباع التعليمات. سجل GPT-4o نسبة 12.4٪. كان أداء نماذج الذكاء الاصطناعي جيدًا بشكل خاص في أدوار مثل العدادين وموظفي الإيجار، وموظفي الشحن والمخزون، ومديري المبيعات، ومطوري البرامج. وعلى العكس من ذلك، واجهوا المزيد من التحديات في المهام من المهندسين الصناعيين والصيادلة والمديرين الماليين ومحرري الفيديو.

ADVERTISEMENT

السرعة والتكلفة ومستقبل العمل

بالإضافة إلى الجودة، تدعي OpenAI أن نماذج الذكاء الاصطناعي هذه يمكنها إكمال مهام GDPval أسرع بحوالي 100 مرة وبتكلفة أقل 100 مرة من الخبراء البشريين. على الرغم من هذه القدرات الرائعة، تؤكد OpenAI أن الذكاء الاصطناعي من غير المرجح أن يحل محل العمال البشريين بالكامل. تقترح الشركة أن دور الذكاء الاصطناعي سيكون التعامل مع المهام الروتينية، مما يسمح للمهنيين البشريين بالتركيز بشكل أكبر على الجوانب الإبداعية والاستراتيجية والقائمة على الحكم في عملهم، وبالتالي تعزيز الإنتاجية الإجمالية والرضا الوظيفي.

قراءة مقترحة

29-09-2025
راي بان ميتا الجيل الثاني: أفضل النظارات الذكية بدون شاشة، ولكن هل تستحق الترقية؟
مراجعة شاملة لنظارات Ray-Ban Meta Gen 2 الذكية، تسلط الضوء على التحسينات في عمر البطارية وتسجيل الفيديو، مع مناقشة قيود Meta AI ومخاوف الخصوصية.
ADVERTISEMENT
03-07-2025
مفارقة مايكروسوفت: تسريح آلاف الموظفين وسط مليارات الأرباح
مايكروسوفت تسرح آلاف الموظفين على الرغم من الأرباح القياسية، مما يثير مخاوف بشأن تأثير الذكاء الاصطناعي على مستقبل العمل في صناعة التكنولوجيا.
05-08-2025
صياد الأخطاء بالذكاء الاصطناعي من جوجل "بيج سليب" يكشف عن 20 ثغرة أمنية
اكتشف صياد الأخطاء المدعوم بالذكاء الاصطناعي من جوجل، "بيج سليب"، 20 ثغرة أمنية في برمجيات مفتوحة المصدر، مما يمثل حقبة جديدة في الأمن السيبراني المؤتمت بإشراف بشري.
03-06-2025
96% من الأمريكيين يستهدفون بعمليات الاحتيال أسبوعيًا: كيف تحمي نفسك؟
اكتشف كيف أن 96% من الأمريكيين يستهدفون بعمليات الاحتيال أسبوعيًا، وتعرف على نصائح الخبراء للحماية من الاحتيال عبر البريد الإلكتروني، والمكالمات، والرسائل النصية، ووسائل التواصل الاجتماعي.
ADVERTISEMENT
23-06-2025
مارشال كيلبورن الثالث: مكبر صوت بلوتوث يعيد تعريف التميز الصوتي
اكتشف لماذا يوفر مكبر الصوت Marshall Kilburn III Bluetooth، بسعر 379 دولارًا، جودة صوت فائقة وتصميمًا تناظريًا كلاسيكيًا يتفوق على العديد من أنظمة الصوت الأكثر تكلفة.
04-09-2025
بولار تكشف عن جهاز Loop القابل للارتداء بدون شاشة لتتبع اللياقة البدنية بتكتم
بولار تقدم اللوب، وهو جهاز تعقب لياقة بدنية يمكن ارتداؤه بدون شاشة بسعر 200 دولار، مصمم للمراقبة السرية للنشاط والنوم، ويتنافس مع ووب وأورا.
11-11-2025
Apple TV+ تضاعف تركيزها على المحتوى الأصلي، وتتجنب الإعلانات وعمليات الاستحواذ الكبرى
Apple TV+ تضاعف تركيزها على المحتوى الأصلي، وتتجنب الإعلانات وعمليات الاستحواذ الكبرى
ADVERTISEMENT
24-11-2025
مقارنة أفضل روبوتات الدردشة بالذكاء الاصطناعي: Gemini 2.5 Pro مقابل ChatGPT والمنافسين
يتفوق Google Gemini 2.5 Pro الآن على ChatGPT والمنافسين الآخرين في رضا المستخدمين والتواصل والقدرة على التكيف بين روبوتات الدردشة الرائدة في مجال الذكاء الاصطناعي. اكتشف السبب.
04-12-2025
الاتجاهات الرئيسية في تطبيق مادة TPU في الروبوتات الشبيهة بالبشر
استكشف خمسة اتجاهات رئيسية في تطبيق مادة TPU للروبوتات الشبيهة بالبشر، تغطي الأيدي المرنة، والجلود الناعمة، وابتكارات الطباعة ثلاثية الأبعاد، والاستشعار اللمسي.
20-05-2025
تصحيح المفاهيم: نهاية الكون ليست وشيكة كما يُشاع
تدحض الأبحاث الجديدة الادعاءات بأن الكون سينتهي قريبًا، موضحة أن الكيانات الأساسية ستظل مستقرة لفترة طويلة.
ADVERTISEMENT