منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

29-05-2025
اكتشاف كائن كوني غامض يربك علماء الفلك
اكتشاف كائن كوني غامض يُعرف باسم ASKAP J1832-0911، والذي يُظهر إشارات راديوية ونبضات أشعة سينية، مما يثير تساؤلات جديدة حول طبيعة هذه الكائنات.
ADVERTISEMENT
22-05-2025
عودة فورتنايت إلى متجر آبل: انتصار "لا يقدر بثمن"
تيم سويني، الرئيس التنفيذي لشركة إبيك غيمز، يصف عودة فورتنايت إلى متجر آبل بأنها انتصار "لا يقدر بثمن" بعد خمس سنوات من النزاع القانوني.
17-06-2025
وكالة ناسا توافق على مهمة خاصة لمحطة الفضاء الدولية بعد إصلاح تسرب الهواء
وكالة ناسا توافق على مهمة خاصة لمحطة الفضاء الدولية بعد إصلاحات ناجحة لتسرب الهواء في وحدة زفيزدا الروسية، مما يمهد الطريق لمهمة أكسيوم 4.
26-05-2025
تحول الذكاء الاصطناعي في قطاع الاتصالات: الرئيس التنفيذي الجديد لأوبتس يؤكد على أهمية البشر
ستيفن رو، الرئيس التنفيذي الجديد لأوبتس، يتحدث عن دور الذكاء الاصطناعي في تحسين قطاع الاتصالات مع التأكيد على أهمية البشر في العمليات.
ADVERTISEMENT
28-05-2025
تسلا تواجه أزمة حادة في أوروبا مع تراجع المبيعات
تسلا تواجه أزمة حادة في مبيعاتها في أوروبا، حيث انخفضت بنسبة 49% في أبريل 2025، مما يثير تساؤلات حول استراتيجيات الشركة في ظل المنافسة المتزايدة.
18-06-2025
روبوت بشري مدعوم من NVIDIA يحدث ثورة في عمليات المصانع
كشفت شركتا Hexagon وNVIDIA عن AEON، وهو روبوت بشري مصمم لإحداث ثورة في عمليات المصانع بفضل الذكاء الاصطناعي المتقدم والتدريب القائم على المحاكاة أولاً، ويؤدي مهام تتراوح من التلاعب بالآلات إلى مسح الأصول.
26-05-2025
استثمار وارن بافيت في الذكاء الاصطناعي: 26.4% من محفظته في أسهم رائدة
استثمر وارن بافيت 26.4% من محفظته في أسهم الذكاء الاصطناعي، مع التركيز على آبل وأمازون. تعرف على تفاصيل استثماراته.
ADVERTISEMENT
04-06-2025
مصنعو الشرق الأوسط يتصدرون تبني الذكاء الاصطناعي التوليدي عالميًا
يقود مصنعو الشرق الأوسط تبني الذكاء الاصطناعي العالمي، حيث يستخدم 98% منهم الذكاء الاصطناعي التوليدي أو يخططون لاستخدامه، مع التركيز على التطبيقات العملية لتحقيق الكفاءة والأمن السيبراني والاستدامة، وذلك وفقًا لتقرير روكويل أوتوميشن.
29-05-2025
جوجل صور تحتفل بمرور 10 سنوات على إطلاقها مع أكثر من 9 تريليون صورة وفيديو
احتفلت جوجل صور بمرور 10 سنوات على إطلاقها، مع أكثر من 9 تريليون صورة وفيديو مخزنة، وقدمت ميزات جديدة مثل محرر الصور المعاد تصميمه وأكواد QR لمشاركة الألبومات.
22-05-2025
GENESTAR: تتبع تأثير الفضاء على صحتك أثناء السفر إلى الفضاء
تطوير بروتوكول GENESTAR لجمع العينات البيولوجية من المسافرين إلى الفضاء لفهم تأثير الفضاء على الصحة.
ADVERTISEMENT
16-06-2025
لوحة المفاتيح بقيمة 3600 دولار: داخل سعي ريان نورباور للحصول على جهاز 'نهاية اللعبة'
استكشف إنشاء لوحة مفاتيح Seneca التي تبلغ تكلفتها 3600 دولار من قبل ريان نورباور، مع تفصيل تصميمها المخصص وابتكاراتها الهندسية والفلسفة وراء بناء تجربة الكتابة "النهائية".
29-05-2025
جوجل تكشف عن سبب مشاكل بطارية بيكسل بعد تحديث مايو
جوجل تكشف أن مشاكل بطارية هواتف بيكسل بعد تحديث مايو 2025 ناتجة عن خلل في تطبيق إنستغرام، وليس بسبب التحديث نفسه.
22-05-2025
الصين تتصدر سباق القوة الحاسوبية الفضائية المعتمدة على الذكاء الاصطناعي
تقرير شامل عن إطلاق الصين لكوكبة حاسوبية مدارية، وتأثيرها على سباق الفضاء والذكاء الاصطناعي.
ADVERTISEMENT
23-05-2025
إعادة جدولة مغادرة كبسولة دراجون من محطة الفضاء الدولية إلى 23 مايو
أعلنت ناسا وسبايس إكس عن إعادة جدولة مغادرة كبسولة دراجون من محطة الفضاء الدولية إلى 23 مايو بسبب سوء الأحوال الجوية.
20-06-2025
انفجار سفينة الفضاء ستار شيب التابعة لسبيس إكس في تكساس خلال اختبار فاشل
انفجر النموذج الأولي لمركبة سبيس إكس ستارشيب، السفينة 36، في منشأة اختبار في تكساس في 18 يونيو، مما أثر على الاستعدادات للرحلة 10. وعزا الرئيس التنفيذي إيلون ماسك السبب إلى فشل في خزان الضغط المركب (COPV). وتضيف هذه الحادثة إلى النكسات الأخيرة للصاروخ المتجه إلى القمر والمريخ.
20-05-2025
زيادة استخدام الوكلاء الذكاء الاصطناعي: ما قاله CTO مايكروسوفت في مؤتمر Build 2025
في مؤتمر Build 2025، أعلن CTO مايكروسوفت عن تضاعف عدد مستخدمي وكلاء الذكاء الاصطناعي، مع تقديم أدوات جديدة لتعزيز الإنتاجية.
ADVERTISEMENT