منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

17-06-2025
وكالة ناسا توافق على مهمة خاصة لمحطة الفضاء الدولية بعد إصلاح تسرب الهواء
وكالة ناسا توافق على مهمة خاصة لمحطة الفضاء الدولية بعد إصلاحات ناجحة لتسرب الهواء في وحدة زفيزدا الروسية، مما يمهد الطريق لمهمة أكسيوم 4.
ADVERTISEMENT
07-07-2025
سامسونج HW-Q990F: الملك المتوج لأنظمة الصوت الشريطية بتقنية Dolby Atmos
اكتشف Samsung HW-Q990F، مكبر الصوت الرئيسي Dolby Atmos لشركة Samsung لعام 2025. يسلط هذا الاستعراض الضوء على صوته الغامر ومضخم الصوت المدمج والميزات المتميزة.
30-05-2025
الوقت المستغرق لإنهاء ألعاب الفيديو يرتفع بنسبة 61%: ما هي الألعاب الأطول؟
دراسة حديثة تكشف عن زيادة بنسبة 61% في متوسط الوقت اللازم لإنهاء ألعاب الفيديو، مع تفاصيل عن الألعاب الأطول والأقصر وتأثير ذلك على تجربة اللاعبين.
07-07-2025
وصول شريحة Grace Blackwell المكتبية من Nvidia: Asus تكشف عن Ascend GX10 لمحطات عمل الذكاء الاصطناعي
أول شريحة للحاسوب المكتبي من Nvidia، وهي GB10 Grace Blackwell، ستنطلق هذا الشهر، مع شركة Asus التي تقود إطلاق جهاز Ascend GX10 mini-PC، مستهدفة تطوير الذكاء الاصطناعي واستخدامات محطات العمل.
ADVERTISEMENT
25-06-2025
ستيلان سكارسجارد: نجم 'أندور' الذي خالف قواعد سيناريو 'حرب النجوم'
اكتشف كيف تحدى نجما 'أندور' ستيلان سكارسجارد وأدريا أرجونا أمن النصوص الصارم لشركة ديزني، حيث قاما بطباعة نسخ مادية على الرغم من سياسات الاعتماد على النسخ الرقمية فقط، كما كشف دييغو لونا.
22-05-2025
جنوب أمريكا تحقق إنجازًا تاريخيًا: لا خطط جديدة لمحطات الفحم
جنوب أمريكا تحقق إنجازًا تاريخيًا بإعلان عدم وجود أي خطط جديدة لمحطات الفحم، مما يعكس التزام القارة بالانتقال إلى الطاقة المتجددة.
01-07-2025
فن المعجبين على Reddit غيّر مشهدًا رئيسيًا في فيلم "Spider-Man: No Way Home"
اكتشف كيف أثرت فنون المعجبين على Reddit في مشهد رئيسي في فيلم "Spider-Man: No Way Home"، مما دفع المخرج جون واتس إلى تغيير الكشف عن شخصيتي سبايدر مان لتوبي ماغواير وأندرو غارفيلد.
ADVERTISEMENT
23-05-2025
إعادة جدولة مغادرة كبسولة دراجون من محطة الفضاء الدولية إلى 23 مايو
أعلنت ناسا وسبايس إكس عن إعادة جدولة مغادرة كبسولة دراجون من محطة الفضاء الدولية إلى 23 مايو بسبب سوء الأحوال الجوية.
16-06-2025
جوجل تحث مستخدمي Gmail: حدثوا أمانكم الآن!
تحث Google مستخدمي Gmail على تحديث إعدادات الأمان بسبب الزيادة في رسائل البريد الإلكتروني الاحتيالية وانتهاكات البيانات، وتدعو إلى طرق مصادقة أقوى مثل مفاتيح المرور.
30-06-2025
ألفا بوت 2: الروبوت البشري الذي يلعب النرد ويمهد الطريق للذكاء الاصطناعي المنزلي
اكتشف كيف يدفع الروبوت البشري AlphaBot 2 الصيني حدود الذكاء الاصطناعي المتجسد، ويعرض قدرته على التعلم والتفاعل، ومستقبله المحتمل في المنازل.
ADVERTISEMENT
18-06-2025
الروبوتات باريستا تُحدث ثورة في الخدمة بفضل الذكاء الاصطناعي المتقدم والوعي بالعملاء
تُحدث الروبوتات البشرية المدعومة بالذكاء الاصطناعي من Richtech Robotics، آدم وسكوربيون، ثورة في صناعة الخدمات من خلال اكتشاف العملاء وإعداد المشروبات بكفاءة.
12-06-2025
فيلم 'ديب كوفر' من برايم فيديو يقلب سيناريو الدراما الجريمة البريطانية بطريقة مضحكة
اكتشف 'Deep Cover'، الكوميديا ​​الحركية الجديدة من Prime Video التي تقلب السيناريو بشكل مضحك في دراما الجريمة البريطانية، بطولة برايس دالاس هوارد، أورلاندو بلوم، ونيك محمد.
26-05-2025
الروبوتات البشرية: هل نحن على أعتاب مرحلة جديدة من التطور الاصطناعي؟
استكشاف التطورات الحديثة في الروبوتات البشرية وتأثيرها على المستقبل، مع التركيز على التطبيقات والتحديات.
ADVERTISEMENT
24-07-2025
تي-ساتالايت من تي-موبايل: إرسال الرسائل النصية من المناطق الميتة أصبح سهلاً
استكشف خدمة الرسائل النصية عبر الأقمار الصناعية الجديدة من تي-موبايل المدعومة بستارلينك، تي-ساتالايت. اكتشف كيف تعمل، وميزاتها الرئيسية، وكيف تقارن بخيارات الاتصال عبر الأقمار الصناعية الأخرى.
03-06-2025
WWDC 2025: الكشف عن مستقبل آبل في 9 يونيو
تعرف على كل ما يخص مؤتمر آبل العالمي للمطورين (WWDC) لعام 2025، بما في ذلك كيفية مشاهدة الكلمة الرئيسية، وما يمكن توقعه من تحديثات برمجية رئيسية لأنظمة iOS وiPadOS وmacOS، والتركيز على الذكاء الاصطناعي.
29-07-2025
بلندر ينطلق: تطبيق 3D الشهير يحصل على نسخة مخصصة للأجهزة اللوحية
برنامج بلندر، حزمة إنشاء المحتوى ثلاثي الأبعاد مفتوحة المصدر الشهيرة، يطور نسخة مخصصة للأجهزة اللوحية، بهدف جلب أدوات النمذجة والتحريك ثلاثية الأبعاد القوية إلى واجهة محمولة وسهلة الاستخدام باللمس. يركز التطوير الأولي على iPad Pro و Apple Pencil، مع عرض تقني مخطط له في SIGGRAPH 2025.
ADVERTISEMENT