منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

17-07-2025
أوقفت OpenAI إصدار نموذج الذكاء الاصطناعي مفتوح الوزن وسط مخاوف تتعلق بالسلامة والمنافسة مع Meta
أوبن إيه آي تؤجل نموذج الذكاء الاصطناعي مفتوح الوزن المنتظر، مشيرة إلى مخاوف تتعلق بالسلامة وسط منافسة شديدة مع ميتا ومطوري الذكاء الاصطناعي الآخرين.
ADVERTISEMENT
17-07-2025
روبوتات توصيل الوجبات الخفيفة تجوب مترو شنتشن لإعادة تخزين متاجر سفن إيليفن
تقوم الروبوتات المستقلة بركوب مترو أنفاق شنتشن لتوصيل وإعادة تخزين متاجر 7-Eleven، وعرض الخدمات اللوجستية المدفوعة بالذكاء الاصطناعي مع LiDAR، والإرسال الذكي، وتصميم هيكل جديد.
26-05-2025
أسبوع حافل في الذكاء الاصطناعي: تسليط الضوء على Grok لمسك، استثمارات Oracle في Nvidia، وجوجل تعزز سيطرتها على البحث
استعرضنا أبرز الأحداث في عالم الذكاء الاصطناعي هذا الأسبوع، بما في ذلك استثمارات Oracle في Nvidia، وتطورات Google في البحث، ومخاوف حول Grok لإيلون ماسك.
09-09-2025
نفايات بلاستيكية تتحول إلى مادة آكلة للكربون على يد علماء دنماركيين
حوّل علماء دنماركيون ببراعة النفايات البلاستيكية إلى مادة قوية قادرة على امتصاص الكربون، مما يقدم حلاً جديداً لمكافحة التلوث وتغير المناخ.
ADVERTISEMENT
21-10-2025
مايكروسوفت تسرع في إصلاح طارئ لتحديث ويندوز 11 المعيب
تُصدر مايكروسوفت تحديثًا طارئًا لإصلاح مشكلة في تحديث حديث لنظام ويندوز 11 تسببت في مشاكل مع التطبيقات والأجهزة واتصال الشبكة. تعرف على المزيد حول المشاكل وطرح الإصلاح.
23-05-2025
مايكروسوفت تحول ويندوز إلى منصة ذكية للويب الجديد
مايكروسوفت تعلن عن تحول ويندوز إلى منصة ذكية، مع إدخال بروتوكول جديد وأدوات مبتكرة لتعزيز تجربة المستخدم في عصر الذكاء الاصطناعي.
03-11-2025
أيانيا تدخل سوق الهواتف الذكية بجهاز يركز على الألعاب ويتميز بأزرار كتف
أيانيا، المعروفة بأجهزتها للألعاب، تطلق أول هاتف ذكي لها، هاتف أيانيا، والذي يتميز بأزرار كتف فعلية ومعالج سنابدراجون لتعزيز تجربة الألعاب على الهاتف المحمول.
ADVERTISEMENT
08-08-2025
ساوندبار ياماها الجديد يتفوق على المنافسين باثني عشر مكبر صوت علوي بتقنية دولبي أتموس
تكشف ياماها عن نظام مكبر الصوت الجديد True X Surround 90A، الذي يتميز باثني عشر مكبر صوت Dolby Atmos موجه للأعلى غير مسبوق، لتجربة مسرح منزلي غامرة حقًا. تعرف على ميزاته المتقدمة، وتقنية تشكيل الحزمة، والتسعير.
28-05-2025
كيف ستغير الذكاء الاصطناعي حياتنا وعملنا؟
مقابلة مع الخبيرة ميلاني سوبين حول تأثير الذكاء الاصطناعي على حياتنا وعملنا، وكيف يمكننا الاستعداد للتغييرات القادمة.
18-06-2025
إيليو من بيكسار: رحلة خيال علمي للقلب والشفاء
اكتشف فيلم بيكسار الجديد 'إيليو'، مغامرة خيال علمي مؤثرة تستكشف مواضيع الحزن والانتماء والصداقة عبر الكون. تعرف على قصته الفريدة ومرئياته المذهلة.
ADVERTISEMENT