منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

29-05-2025
تطبيق T-Mobile الجديد: هل هو أداة لتحسين الخدمة أم انتهاك للخصوصية؟
تطبيق T-Mobile الجديد يثير قلق العملاء حول الخصوصية بعد تفعيل أداة تسجيل الشاشة بشكل افتراضي. تعرف على التفاصيل وكيفية إيقاف تشغيل الأداة.
ADVERTISEMENT
27-05-2025
راي كيرزويل يتحدى إيلون ماسك: صفقة بقيمة 100 مليون دولار لشركته "بيوند إيميجينيشن"
راي كيرزويل يعلن عن صفقة بقيمة 100 مليون دولار لشركته "بيوند إيميجينيشن"، في وقت تتسابق فيه تسلا وإنفيديا وميتا نحو تطوير الروبوتات المدعومة بالذكاء الاصطناعي.
30-06-2025
من اللعنة القديمة إلى العلاج الحديث: فطر مرتبط بـ 'لعنة المومياء' يظهر وعدًا في علاج السرطان
اكتشف كيف أن الفطر *الرشاشية فلافس*، الذي كان مرتبطًا في السابق بـ 'لعنة المومياء'، يظهر الآن واعدًا كعلاج قوي للسرطان، خاصة ضد سرطان الدم.
19-06-2025
بكين تقود الثورة في مجال الروبوتات الشبيهة بالبشر
تتطور بكين بسرعة لتصبح مركزًا عالميًا للروبوتات الشبيهة بالبشر، مدفوعة بالاختراقات التكنولوجية، والنمو الصناعي المتزايد، والأحداث العالمية القادمة. تعرف على الابتكارات والخطط المستقبلية.
ADVERTISEMENT
26-06-2025
شاحن أنكر متعدد الاستخدامات للسفر معروض للبيع في الوقت المناسب تمامًا للصيف
اكتشف محول السفر Anker Nano، المتوفر الآن للبيع، والذي يوفر شحنًا متعدد الاستخدامات لأكثر من 200 دولة. تعرف على ميزاته وعروض التكنولوجيا الأخرى.
14-08-2025
سامسونج تطلق أول شاشة OLED بدقة QHD ومعدل تحديث 500 هرتز في العالم بالولايات المتحدة؛ كما يتم إطلاق شاشات Odyssey G7 المنحنية الجديدة أيضاً
تطلق سامسونج شاشتها المخصصة للألعاب Odyssey OLED G6 بدقة QHD ومعدل تحديث 500 هرتز في الولايات المتحدة بسعر 999 دولارًا. كما تقدم الشركة شاشتين جديدتين منحنيتين من طراز Odyssey G7، إحداهما بحجم 37 بوصة والأخرى بحجم 40 بوصة.
20-06-2025
انفجار سفينة الفضاء ستار شيب التابعة لسبيس إكس في تكساس خلال اختبار فاشل
انفجر النموذج الأولي لمركبة سبيس إكس ستارشيب، السفينة 36، في منشأة اختبار في تكساس في 18 يونيو، مما أثر على الاستعدادات للرحلة 10. وعزا الرئيس التنفيذي إيلون ماسك السبب إلى فشل في خزان الضغط المركب (COPV). وتضيف هذه الحادثة إلى النكسات الأخيرة للصاروخ المتجه إلى القمر والمريخ.
ADVERTISEMENT
18-08-2025
خرافات أمان ويندوز التي تم دحضها لعام 2025
استكشف وفنّد أساطير أمان ويندوز الشائعة التي تستمر في عام 2025. تعلّم لماذا لا تحتاج لدفع ثمن مضاد الفيروسات، وقيود الأمان المدمج، وأهمية التحديثات.
18-08-2025
معماري أجهزة Xbox يتأمل في سلسلة X|S مع بزوغ فجر عصر جديد
يتأمل كارل ليدبيتر، مهندس أجهزة Xbox، في تصميم وإرث Xbox Series X|S مع اختتام هذا الجيل، معربًا عن تفاؤله بالابتكارات المستقبلية.
09-08-2025
قد يحتوي المريخ على معدن اكتشف حديثًا
ربما اكتشف العلماء معدنًا جديدًا على المريخ، وهو هيدروكسي سلفات حديدي غير عادي عُثر عليه بالقرب من فالس مارينريس، مما يقدم أدلة حول ماضي الكوكب.
ADVERTISEMENT
11-06-2025
فك شفرة الواقع: كيف يرى روبوت أطلس من بوسطن ديناميكس العالم
اكتشف كيف يدرك روبوت أطلس البشري من بوسطن ديناميكس بيئته ويتفاعل معها من خلال دمج المستشعرات المتقدم ورسم الخرائط في الوقت الفعلي.
27-08-2025
ستارشيب تحلق: سبيس إكس تحقق نجاحًا كبيرًا في رحلتها التجريبية العاشرة
كانت رحلة ستارلاينر العاشرة لـ سبيس إكس ناجحة بشكل كبير، حيث حققت إنجازات رئيسية بما في ذلك نشر الحمولة وهبوطًا متحكمًا فيه، مما أعاد الشركة إلى مسارها الصحيح.
13-08-2025
الذكاء الاصطناعي يُحوّل السفر في الشرق الأوسط: رحلات مخصصة وتجارب مُحسّنة
اكتشف كيف تُحدث الذكاء الاصطناعي ثورة في تجارب السفر في الشرق الأوسط، لا سيما في الإمارات العربية المتحدة، مما يعزز التخصيص والكفاءة وقطاع الاجتماعات والحوافز والمؤتمرات والمعارض (MICE).
ADVERTISEMENT
19-08-2025
إصدار iOS 26 بيتا العامة 4: خطوة أقرب إلى تحديث الآيفون النهائي
أصدرت Apple الإصدار التجريبي العام الرابع من iOS 26، مما يقرب إصلاحات الأخطاء والميزات الجديدة من الإصدار النهائي للآيفون. تعرف على كيفية التنزيل وما يمكن توقعه.
11-07-2025
إنتل تطلق العنان لـ RealSense: وحدة الروبوتات الذكية تؤمن 50 مليون دولار في عملية فصل
تستثمر إنتل وحدة الروبوتات الذكية التابعة لها، RealSense، بجولة تمويل بقيمة 50 مليون دولار للاستفادة من سوق الروبوتات الشبيهة بالبشر المزدهر.
05-08-2025
روبوت الصين البشري يفتح أبواب السيارات، مما يثير جدلاً عالميًا حول الذكاء الاصطناعي
كشفت شركة AiMOGA Robotics الصينية عن Mornine، وهو روبوت بشري يفتح أبواب السيارات ذاتيًا، مما أثار نقاشًا عالميًا حول دور الذكاء الاصطناعي في المجتمع وتأثيره على مستقبل العمل.
ADVERTISEMENT