معيار OpenAI الجديد يكشف عن كفاءة الذكاء الاصطناعي المتزايدة في مهام العمل الواقعية

التكنولوجيا اليومية

التكنولوجيا اليومية

·

01/10/2025

button icon
ADVERTISEMENT

قدمت OpenAI معيارًا جديدًا، GDPval، مصممًا لتقييم أداء الذكاء الاصطناعي في المهام ذات القيمة الاقتصادية والواقعية في مختلف المهن. تهدف هذه المبادرة إلى ترسيخ المناقشات حول الذكاء الاصطناعي في مكان العمل بأدلة ملموسة، ومعالجة المخاوف من أن العديد من الشركات لا ترى عوائد كبيرة على استثماراتها في الذكاء الاصطناعي.

النقاط الرئيسية

معيار GDPval

تم تطوير معيار GDPval (قيمة الناتج المحلي الإجمالي) الخاص بـ OpenAI لسد الفجوة بين أداء الذكاء الاصطناعي في المشكلات النظرية وفائدته في سيناريوهات العمل العملية. يستمد التقييم المهام من المهن الرئيسية داخل الصناعات التي تساهم بشكل كبير في الناتج المحلي الإجمالي للولايات المتحدة، مثل العقارات والحكومة والتصنيع والمالية. تم تجنيد متخصصين بمتوسط ​​14 عامًا من الخبرة لتصميم مهام واقعية وتقديم أمثلة مكتوبة من قبل الإنسان لإكمال المهام بنجاح. تتراوح هذه المهام من صياغة المذكرات القانونية والمخططات الهندسية إلى إدارة تفاعلات دعم العملاء وإنشاء خطط الرعاية التمريضية.

ADVERTISEMENT

رؤى حول أداء الذكاء الاصطناعي

كشفت الاختبارات الأولية باستخدام GDPval على 220 مهمة أن نماذج الذكاء الاصطناعي الرائدة تقترب من جودة المستوى البشري في العديد من المجالات. حقق Claude Opus 4.1 أعلى معدل فوز وتعادل بنسبة 47.6٪ مقابل المهام المكتملة من قبل الإنسان، متفوقًا في مجالات مثل تنسيق المستندات وتخطيط الشرائح. تبع ذلك GPT-5 high بمعدل فوز وتعادل بنسبة 38.8٪، مما يدل على القوة في الدقة واتباع التعليمات. سجل GPT-4o نسبة 12.4٪. كان أداء نماذج الذكاء الاصطناعي جيدًا بشكل خاص في أدوار مثل العدادين وموظفي الإيجار، وموظفي الشحن والمخزون، ومديري المبيعات، ومطوري البرامج. وعلى العكس من ذلك، واجهوا المزيد من التحديات في المهام من المهندسين الصناعيين والصيادلة والمديرين الماليين ومحرري الفيديو.

ADVERTISEMENT

السرعة والتكلفة ومستقبل العمل

بالإضافة إلى الجودة، تدعي OpenAI أن نماذج الذكاء الاصطناعي هذه يمكنها إكمال مهام GDPval أسرع بحوالي 100 مرة وبتكلفة أقل 100 مرة من الخبراء البشريين. على الرغم من هذه القدرات الرائعة، تؤكد OpenAI أن الذكاء الاصطناعي من غير المرجح أن يحل محل العمال البشريين بالكامل. تقترح الشركة أن دور الذكاء الاصطناعي سيكون التعامل مع المهام الروتينية، مما يسمح للمهنيين البشريين بالتركيز بشكل أكبر على الجوانب الإبداعية والاستراتيجية والقائمة على الحكم في عملهم، وبالتالي تعزيز الإنتاجية الإجمالية والرضا الوظيفي.

قراءة مقترحة

20-11-2025
تحديث عاجل لمتصفح كروم: جوجل تؤكد استغلال ثغرة يوم الصفر النشط
تُصدر جوجل تحديثًا طارئًا لمتصفح كروم بسبب استغلال نشط لثغرة أمنية حرجة من نوع "صفر يوم" (CVE-2025-13223). تلزم CISA الوكالات الفيدرالية بالتحديث بحلول 10 ديسمبر. يُنصح جميع المستخدمين بالتحديث فورًا.
ADVERTISEMENT
12-06-2025
مزودو MCU الصينيون يتجهون إلى الروبوتات الشبيهة بالبشر وسط ازدهار الذكاء الاصطناعي
تحول الشركات المصنعة الصينية لوحدات التحكم الدقيقة (MCU) تركيزها من قطاع السيارات إلى الروبوتات الشبيهة بالبشر، مدفوعة بنمو الذكاء الاصطناعي التوليدي، بحثًا عن فرص سوقية جديدة.
19-11-2025
مقارنة بين حلول N64 التناظرية ثلاثية الأبعاد والحلول الكلاسيكية والحديثة: نظرة عامة مقارنة
محاكاة Analogue 3D مقابل N64: اكتشف كيف تعيد أجهزة FPGA إنشاء الألعاب الكلاسيكية بأداء فائق وخيارات عرض لعشاق التكنولوجيا.
10-06-2025
نظام iPadOS 26 يكشف عن تعدد مهام شبيه بنظام macOS، ويعيد تعريف إنتاجية الجهاز اللوحي
يقدم iPadOS 26 تعدد مهام شبيهًا بنظام macOS، وواجهة 'Liquid Glass'، وتطبيقات محسّنة، مما يحول iPad إلى جهاز أكثر قوة وتنوعًا.
ADVERTISEMENT
13-11-2025
أطلقت OpenAI نموذج GPT-5.1: ذكاء اصطناعي أكثر ذكاءً ومحادثة لـ ChatGPT
تطلق OpenAI GPT-5.1، وهو تحديث لـ ChatGPT يعد بتجربة "أكثر دفئًا وذكاءً". اكتشف التحسينات التقنية الرئيسية لنماذجي Instant و Thinking، بما في ذلك اتباع التعليمات بشكل أفضل وضوابط شخصية جديدة.
29-10-2025
تم الكشف عن تصميم جوجل بيكسل 10a في صور مسربة جديدة
تسربت صور Google Pixel 10a المستندة إلى CAD، تكشف عن التصميم والمواصفات المحتملة ونافذة الإطلاق المتوقعة. احصل على النظرة الأولى على هاتف Google الذكي المتوسط ​​القادم.
08-09-2025
تلف كابل البحر الأحمر يؤدي إلى تباطؤ واسع النطاق للإنترنت في جميع أنحاء الشرق الأوسط، وقد تستغرق الإصلاحات شهورًا
تواجه خدمات الإنترنت في الشرق الأوسط تباطؤًا طويل الأمد بسبب تلف كابلات البحر الأحمر، وقد تستغرق الإصلاحات شهورًا. تعرف على التأثير وعملية الإصلاح المعقدة.
ADVERTISEMENT
17-07-2025
زئير التنين: فيلم الحركة الحية "كيف تروض تنينك" يصل إلى المنصات الرقمية مع إضافات واسعة
من المقرر إطلاق فيلم الحركة الحية "How to Train Your Dragon" رقميًا في 15 يوليو، وهو مليء بأكثر من 75 دقيقة من الميزات الإضافية، بما في ذلك المشاهد المحذوفة ومحتوى من وراء الكواليس. يتم بالفعل تطوير جزء ثانٍ.
07-10-2025
سامسونج تكشف عن مستشعر كاميرا جديد بدقة 200 ميجابكسل: مكاسب كبيرة، لكن الانتظار طويل لهواتف الفئة الرائدة
كشفت سامسونج عن مستشعر كاميرا جديد بدقة 200 ميجابكسل مع تحسينات كبيرة في جودة الصورة والأداء، ولكن قد لا يصل إلى هواتف جالاكسي الرائدة حتى عام 2027.
20-08-2025
أسوس روج تشعل جيمزكوم 2025 بشاشات الألعاب بتقنية OLED من الجيل التالي
تكشف أسوس ريبابليك أوف جيمرز عن شاشات ألعاب OLED جديدة في جيمزكوم 2025، تتميز بتقنية Tandem OLED، وطبقة TrueBlack اللامعة، وحماية متقدمة ضد الاحتراق لتجارب لعب محسّنة.
ADVERTISEMENT