معيار OpenAI الجديد يكشف عن كفاءة الذكاء الاصطناعي المتزايدة في مهام العمل الواقعية

التكنولوجيا اليومية

التكنولوجيا اليومية

·

01/10/2025

button icon
ADVERTISEMENT

قدمت OpenAI معيارًا جديدًا، GDPval، مصممًا لتقييم أداء الذكاء الاصطناعي في المهام ذات القيمة الاقتصادية والواقعية في مختلف المهن. تهدف هذه المبادرة إلى ترسيخ المناقشات حول الذكاء الاصطناعي في مكان العمل بأدلة ملموسة، ومعالجة المخاوف من أن العديد من الشركات لا ترى عوائد كبيرة على استثماراتها في الذكاء الاصطناعي.

النقاط الرئيسية

معيار GDPval

تم تطوير معيار GDPval (قيمة الناتج المحلي الإجمالي) الخاص بـ OpenAI لسد الفجوة بين أداء الذكاء الاصطناعي في المشكلات النظرية وفائدته في سيناريوهات العمل العملية. يستمد التقييم المهام من المهن الرئيسية داخل الصناعات التي تساهم بشكل كبير في الناتج المحلي الإجمالي للولايات المتحدة، مثل العقارات والحكومة والتصنيع والمالية. تم تجنيد متخصصين بمتوسط ​​14 عامًا من الخبرة لتصميم مهام واقعية وتقديم أمثلة مكتوبة من قبل الإنسان لإكمال المهام بنجاح. تتراوح هذه المهام من صياغة المذكرات القانونية والمخططات الهندسية إلى إدارة تفاعلات دعم العملاء وإنشاء خطط الرعاية التمريضية.

ADVERTISEMENT

رؤى حول أداء الذكاء الاصطناعي

كشفت الاختبارات الأولية باستخدام GDPval على 220 مهمة أن نماذج الذكاء الاصطناعي الرائدة تقترب من جودة المستوى البشري في العديد من المجالات. حقق Claude Opus 4.1 أعلى معدل فوز وتعادل بنسبة 47.6٪ مقابل المهام المكتملة من قبل الإنسان، متفوقًا في مجالات مثل تنسيق المستندات وتخطيط الشرائح. تبع ذلك GPT-5 high بمعدل فوز وتعادل بنسبة 38.8٪، مما يدل على القوة في الدقة واتباع التعليمات. سجل GPT-4o نسبة 12.4٪. كان أداء نماذج الذكاء الاصطناعي جيدًا بشكل خاص في أدوار مثل العدادين وموظفي الإيجار، وموظفي الشحن والمخزون، ومديري المبيعات، ومطوري البرامج. وعلى العكس من ذلك، واجهوا المزيد من التحديات في المهام من المهندسين الصناعيين والصيادلة والمديرين الماليين ومحرري الفيديو.

ADVERTISEMENT

السرعة والتكلفة ومستقبل العمل

بالإضافة إلى الجودة، تدعي OpenAI أن نماذج الذكاء الاصطناعي هذه يمكنها إكمال مهام GDPval أسرع بحوالي 100 مرة وبتكلفة أقل 100 مرة من الخبراء البشريين. على الرغم من هذه القدرات الرائعة، تؤكد OpenAI أن الذكاء الاصطناعي من غير المرجح أن يحل محل العمال البشريين بالكامل. تقترح الشركة أن دور الذكاء الاصطناعي سيكون التعامل مع المهام الروتينية، مما يسمح للمهنيين البشريين بالتركيز بشكل أكبر على الجوانب الإبداعية والاستراتيجية والقائمة على الحكم في عملهم، وبالتالي تعزيز الإنتاجية الإجمالية والرضا الوظيفي.

قراءة مقترحة

15-08-2025
سامسونج تستهدف سوق النظارات الذكية المدعومة بالذكاء الاصطناعي بجهاز قابل للارتداء بدون شاشة، وتأجيل الإطلاق إلى أواخر عام 2026
يُقال إن سامسونج تعمل على تطوير نظارات ذكية بالذكاء الاصطناعي بدون شاشة عرض، مع التركيز على تفاعلات الذكاء الاصطناعي، ومن المحتمل إطلاقها في أواخر عام 2026. تعرّف على المزيد حول الميزات المحتملة واستراتيجية السوق.
ADVERTISEMENT
09-06-2025
Dreame X50 Ultra: مكنسة روبوت قوية مع عيب واحد صارخ
اكتشف أداء المكنسة الكهربائية والروبوتية Dreame X50 Ultra، من شفطها القوي ومسحها الهادئ إلى ميزاتها المتقدمة وقيودها الملحوظة في تنظيف الحواف.
20-11-2025
واتساب بيتا يقدم ميزة التبديل بين حسابات متعددة، واعدة بإدارة أسهل للملفات الشخصية
يبلغ مختبرو WhatsApp التجريبيون على نظام iOS عن القدرة على التبديل بين حسابات متعددة، وهي ميزة طال انتظارها يمكن أن تبسط إدارة الملف الشخصي للمستخدمين.
07-08-2025
تأجيل إطلاق الطائرة الفضائية دريم تشيسر مرة أخرى، وهدف 2025 غير مرجح
من غير المرجح إطلاق مركبة الفضاء دريم تشيسر في عام 2025 بسبب التحديات التقنية وتحديات الاعتماد المستمرة، بما في ذلك جاهزية البرمجيات ومركبة الإطلاق.
ADVERTISEMENT
28-08-2025
تطلق تشيبولو أجهزة تعقب CARD و LOOP الأنيقة لـ Find Hub الخاص بأندرويد
اكتشف أجهزة التتبع الجديدة CARD و LOOP من Chipolo، التي توفر تتبعًا أنيقًا وقابلاً لإعادة الشحن للعناصر، ومتوافقة مع Find Hub من Android و Find My من Apple. تعرف على ميزاتها وأسعارها وتوفرها.
12-11-2025
ماك بوك إير M4 مقابل أجهزة الكمبيوتر التي تعمل بنظام ويندوز: إعادة تعريف أجهزة الكمبيوتر المحمولة متوسطة المدى
بسعر 749 دولارًا أمريكيًا، ينافس جهاز MacBook Air M4 مباشرةً أجهزة الكمبيوتر المحمولة متوسطة الأداء التي تعمل بنظام Windows. نقارن ذاكرته الموحدة، وأداء شريحة M4، وميزاته المتميزة مع منافسيه.
30-06-2025
قفزة أبل الطموحة: Vision Pro الجديدة والنظارات الذكية في الأفق
{ "document": "تفيد التقارير أن شركة أبل تعمل على تطوير نماذج جديدة من Vision Pro ونظارات ذكية، مما يشير إلى دفعة كبيرة نحو الأجهزة القابلة للارتداء المثبتة على الرأس، وفقًا للمحلل مينغ تشي كو." }
ADVERTISEMENT
09-09-2025
وفاة مهندس مايكروسوفت المأساوية تثير احتجاجاً ضد "ثقافة الإفراط في العمل" في صناعة التكنولوجيا
عائلة براتيك باندي، مهندس مايكروسوفت من أصل هندي البالغ من العمر 35 عامًا والذي توفي في حرم الشركة، تحث شركات التكنولوجيا على معالجة "ثقافة الإفراط في العمل" وتعزيز توازن أفضل بين العمل والحياة.
09-09-2025
موسم الأربعاء 3: المبدعون يلمحون إلى استكشاف أعمق للشخصيات وأسرار عائلية ممتدة
مبدعو مسلسل 'وينزداي' على نتفليكس يلمحون إلى خطط الموسم الثالث، مع التركيز على عمق الشخصيات، وألغاز العائلة الممتدة، واحتمالية وجود مسلسلات فرعية.
04-12-2025
تكامل محتمل بين Apple Health و ChatGPT لتقديم رؤى صحية مخصصة
استكشف إمكانية دمج Apple Health و ChatGPT، وما قد يعنيه ذلك للنصائح الصحية المخصصة، ومخاوف الخصوصية المرتبطة بها.
ADVERTISEMENT