منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

26-05-2025
أسبوع حافل في الذكاء الاصطناعي: تسليط الضوء على Grok لمسك، استثمارات Oracle في Nvidia، وجوجل تعزز سيطرتها على البحث
استعرضنا أبرز الأحداث في عالم الذكاء الاصطناعي هذا الأسبوع، بما في ذلك استثمارات Oracle في Nvidia، وتطورات Google في البحث، ومخاوف حول Grok لإيلون ماسك.
ADVERTISEMENT
26-05-2025
نظارات ذكية مدعومة بالذكاء الاصطناعي: هل يمكنها تقليل أخطاء الأدوية؟
تسعى الأبحاث في جامعة واشنطن إلى استخدام الذكاء الاصطناعي في تطوير نظارات ذكية تساعد في تقليل الأخطاء الطبية المتعلقة بالأدوية وتحسين سلامة المرضى.
22-05-2025
GENESTAR: تتبع تأثير الفضاء على صحتك أثناء السفر إلى الفضاء
تطوير بروتوكول GENESTAR لجمع العينات البيولوجية من المسافرين إلى الفضاء لفهم تأثير الفضاء على الصحة.
26-05-2025
الروبوت الجديد في التحضير للحرب الكيميائية: قفزة دفاعية جريئة من الولايات المتحدة
الولايات المتحدة تطلق نظام اختبار روبوتي جديد يُعرف باسم Porton Man لتعزيز قدرات الدفاع ضد التهديدات الكيميائية.
ADVERTISEMENT
18-06-2025
عودة الكابتن كيرك: كوميك ستار تريك جديد يستكشف 'السفينة الفضائية الأخيرة' خلال 'الاحتراق'
تعلن IDW Publishing عن 'Star Trek: The Last Starship'، وهي سلسلة قصص مصورة جديدة تعيد الكابتن كيرك إلى الحياة خلال حقبة 'The Burn'، واعدة بتقديم رؤية جديدة للبطل الأيقوني.
13-06-2025
بكين تكشف النقاب عن أول متجر 4S في العالم للروبوتات الشبيهة بالبشر
تستعد بكين لافتتاح أول متجر 4S في العالم للروبوتات البشرية خلال المؤتمر العالمي للروبوتات 2025، والذي سيجمع بين المبيعات والخدمة وقطع الغيار وملاحظات العملاء لإحداث ثورة في الصناعة.
04-06-2025
صراع هوليوود على قوة الذكاء الاصطناعي: إلى أين تتجه الإبداعات البشرية من هنا؟
استكشف صراع القوى المعقد داخل هوليوود بينما يعيد الذكاء الاصطناقة تشكيل صناعة الأفلام، مما يؤثر على الإبداع والوظائف والملكية الفكرية. اكتشف المعارك القانونية، المعضلات الأخلاقية، والدور الحاسم للنقابات في التعامل مع هذا التحول التكنولوجي.
ADVERTISEMENT
20-05-2025
SpaceX تحصل على ترخيص محدث لإطلاق Starship ولكن تنتظر موافقة الرحلة 9
تحديث حول ترخيص SpaceX لإطلاق Starship، مع انتظار الموافقة على الرحلة 9 بعد التحقيق في حادث الرحلة 8.
21-05-2025
جوجل تتعاون مع ووربي باركر لتطوير نظارات ذكية تنافس راي-بان من ميتا
جوجل تتعاون مع ووربي باركر لتطوير نظارات ذكية تنافس راي-بان من ميتا، مع استثمار يصل إلى 150 مليون دولار.
28-05-2025
فضيحة الذكاء الاصطناعي في المحاكم: مكتب محاماة آخر يتعرض للانتقادات بسبب أخطاء ChatGPT
فضيحة جديدة في الساحة القانونية الأمريكية تتعلق باستخدام الذكاء الاصطناعي، حيث اعتذر مكتب محاماة عن تقديم استشهادات قانونية خاطئة بسبب ChatGPT.
ADVERTISEMENT
09-06-2025
الروبوت البشري مقطوع الرأس "كالفين" ينضم إلى القوى العاملة في مصنع رينو
اكتشف كيف سيغير روبوت Wandercraft البشري بلا رأس، كالفن، الذي تم بناؤه في 40 يومًا فقط، التصنيع في مصانع رينو من خلال تولي المهام الشاقة وزيادة الإنتاجية.
21-05-2025
معركة الروبوتات: أول مباراة ملاكمة بين الروبوتات البشرية في الصين
استعدوا لمشاهدة أول مباراة ملاكمة بين الروبوتات البشرية في الصين، حيث ستتنافس الروبوتات في حلبة مصممة خصيصاً لهذا الحدث الفريد.
29-05-2025
قفزة في إيرادات إنفيديا إلى 44.1 مليار دولار رغم قيود رقائق الذكاء الاصطناعي
إنفيديا تحقق إيرادات قياسية بلغت 44.1 مليار دولار في الربع الأخير، على الرغم من القيود المفروضة على مبيعات رقائق الذكاء الاصطناعي إلى الصين.
ADVERTISEMENT
21-05-2025
أبطال الفضاء يعودون إلى الأرض: احتفال في هيوستن مع رواد الفضاء من ناسا
احتفال في هيوستن بعودة رواد الفضاء من ناسا، حيث سيشاركون تجاربهم في محطة الفضاء الدولية ويكرمون المساهمين في مهمتهم.
20-05-2025
إنتل تكشف عن بطاقات الرسوميات Arc Pro B50 وB60 في Computex 2025
إنتل تكشف عن بطاقات الرسوميات Arc Pro B50 وB60 في Computex 2025، مع التركيز على الأداء والذاكرة العالية في سوق الرسوميات الاحترافية.
03-06-2025
روبوت بشري خادم يغير وجه صناعة الفنادق
اكتشف كيف يستعد روبوت بشري خادم لإحداث ثورة في صناعة الفنادق، مما يعد بزيادة الكفاءة وتحسين تجربة الضيوف.
ADVERTISEMENT