منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

07-10-2025
سامسونج تضع معيارًا جديدًا مع أصغر مستشعر كاميرا بدقة 200 ميجابكسل على الإطلاق للهواتف الذكية
تطرح سامسونج أصغر مستشعر كاميرا هاتف في العالم بدقة 200 ميجابكسل، والذي سيظهر لأول مرة في هاتف أوبو فايند X9 برو. يتميز بتقنيات تقريب متقدمة، والتصوير عالي السرعة، وتقنية HDR، وفيديو بدقة 8K، مما يمثل قفزة كبيرة في تكنولوجيا التصوير الفوتوغرافي عبر الهواتف المحمولة.
ADVERTISEMENT
20-05-2025
SpaceX تحصل على ترخيص محدث لإطلاق Starship ولكن تنتظر موافقة الرحلة 9
تحديث حول ترخيص SpaceX لإطلاق Starship، مع انتظار الموافقة على الرحلة 9 بعد التحقيق في حادث الرحلة 8.
08-12-2025
مقارنة الروبوت البشري T800 بمعايير الصناعة: الحقائق والأداء والتصور العام
يُظهر الروبوت البشري T800 من EngineAI عزم دوران وخفة حركة رائدين في الصناعة، مما يثير جدلاً حول الأصالة ويرفع معايير جديدة في مجال الروبوتات.
13-11-2025
بث Valve المرتكز على الرؤية: مستقبل الواقع الافتراضي عالي الدقة يتجاوز إطار Steam
بث Valve المرتكز على الرؤية: مستقبل الواقع الافتراضي عالي الدقة يتجاوز إطار Steam
ADVERTISEMENT
18-06-2025
آيرنهارت: صياغة إرث جديد بمباركة توني ستارك
اكتشف كيف ستواصل 'قلب الحديد' إرث توني ستارك بموافقة روبرت داوني جونيور. تعرف على رحلة ريري ويليامز كمهندسة عبقرية في سلسلة ديزني+ الجديدة.
10-09-2025
الإمارات تكشف عن K2 ثينك: نموذج ذكاء اصطناعي مفتوح المصدر يتحدى العمالقة العالميين
أطلق معهد الإمارات للنماذج التأسيسية نموذج الذكاء الاصطناعي مفتوح المصدر K2 Think، المصمم لمنافسة أنظمة الذكاء الاصطناعي الرائدة من الصين والولايات المتحدة، مع التركيز على الكفاءة والقدرات المتخصصة.
01-10-2025
احصل على جهاز Kindle بأقل من 100 دولار: صفقة مبكرة ليوم Prime تقدم نسخة الأطفال مقابل 95 دولارًا فقط
اكتشف كيف تحصل على جهاز Kindle مقابل 95 دولارًا فقط مع صفقة Prime Day المبكرة من Amazon على إصدار Kindle Kids، الذي يوفر وظائف كاملة ومزايا إضافية.
ADVERTISEMENT
21-08-2025
رهان أوراكل بمليار دولار: مركز بيانات يعمل بالغاز يدعم توجّه السحابة للذكاء الاصطناعي
تفيد التقارير أن أوراكل تخطط لإنفاق مليار دولار سنويًا على مركز بيانات جديد يعمل بالغاز في غرب تكساس، مما يسلط الضوء على توسعها القوي في سوق الحوسبة السحابية المدعومة بالذكاء الاصطناعي.
03-06-2025
المملكة المتحدة وسباق الروبوتات البشرية: فرصة للريادة العالمية
تستكشف هذه المقالة كيف يمكن للمملكة المتحدة أن تقود ثورة الروبوتات البشرية، مع التركيز على التحديات والفرص المتاحة في هذا المجال الواعد.
05-11-2025
watchOS 26.2 يحسّن درجة النوم: تحليل مقارن للمقاييس الجديدة
وصف ميتا watchOS 26.2 لساعة Apple Watch، مقارنة تصنيفات نقاط النوم القديمة والجديدة وشرح التحول نحو تتبع نوم أكثر موضوعية.
ADVERTISEMENT