منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

25-08-2025
AirPods Pro 3 من المقرر إطلاقها هذا العام مع مراقبة رائدة لمعدل ضربات القلب
يُشاع أن سماعات آبل إيربودز برو 3 المرتقبة ستُطلق هذا العام بميزة جديدة وهامة: مراقبة معدل ضربات القلب، مما قد يعزز قدرات تتبع اللياقة البدنية.
ADVERTISEMENT
26-05-2025
التكيف مع ارتفاع مستويات البحر: ضرورة ملحة في زمن التغير المناخي
تتناول هذه المقالة التحديات الناتجة عن ارتفاع مستويات البحر بسبب التغير المناخي، وتبرز أهمية التكيف والاستجابة السريعة لحماية المجتمعات والبيئات.
09-09-2025
تقتحم OpenAI مجال الرسوم المتحركة الطويلة بفيلم "كريترز" المدعوم بالذكاء الاصطناعي، مستهدفةً مهرجان كان
تفتتح OpenAI آفاقًا جديدة في صناعة الأفلام المدفوعة بالذكاء الاصطناعي بفيلم "Critterz"، وهو فيلم رسوم متحركة طويل من المقرر عرضه لأول مرة في مهرجان كان، بهدف تقليل التكاليف ووقت الإنتاج.
27-10-2025
خرائط آبل تستعد لدمج الإعلانات العام المقبل، حسب تقرير
من المتوقع أن تقدم خرائط آبل إعلانات العام المقبل، مما يسمح للشركات بالدفع مقابل نتائج البحث المروجة. تعرف على المزيد حول استراتيجية آبل واستقبال المستخدمين المحتمل.
ADVERTISEMENT
22-07-2025
سامسونج جالاكسي زد فولد 7: الهاتف القابل للطي الذي يبدو أخيرًا كما يجب
اكتشف مراجعة Samsung Galaxy Z Fold 7، التي تسلط الضوء على تصميمها الأنحف، وشاشاتها المحسنة، وأدائها القوي، وكاميرتها المطورة، مما يجعلها هاتفًا ذكيًا رائدًا قابلًا للطي.
22-10-2025
آبل فيجن برو M5: ترقية قوية، ولكنها لا تزال متخصصة، للحوسبة المكانية
مراجعة شاملة لجهاز Apple Vision Pro M5، تفصل ترقيات الأداء، وتحسينات الراحة، والميزات الجديدة، ومكانته كجهاز حوسبة مكانية متميز، وإن كان متخصصًا.
24-10-2025
مايكروسوفت تعزز متصفح إيدج بميزات الذكاء الاصطناعي المحسّنة لكوبيلوت
تعزز مايكروسوفت متصفح إيدج الخاص بها بميزات الذكاء الاصطناعي المتقدمة من كوبيلوت، بما في ذلك "الإجراءات" و "الرحلات"، للتنافس في سوق المتصفحات المدفوعة بالذكاء الاصطناعي.
ADVERTISEMENT
10-10-2025
إنتل تكشف عن معالجات بانثر ليك باستخدام تكنولوجيا أشباه الموصلات المتقدمة 18A
تكشف إنتل عن معالج Panther Lake، أول معالج لها تم تصنيعه باستخدام تقنية أشباه الموصلات المتقدمة 18A في مصنع أريزونا Fab 52، مما يمثل عصرًا جديدًا لتصنيع الرقائق في الولايات المتحدة.
19-06-2025
إنسان آلي نفاث يحلق في إيطاليا
اكتشف iRonCub3، أول روبوت بشري يعمل بالطاقة النفاثة في العالم، تم تطويره بواسطة المعهد الإيطالي للتكنولوجيا، وهو قادر على الطيران المستقر ومصمم للبيئات الخطرة.
25-09-2025
تدمج جوجل نظامي أندرويد وكروم أو إس لأجهزة الكمبيوتر، وسيتم إطلاقه العام المقبل
تعلن جوجل عن دمج نظامي Android وChromeOS لأجهزة الكمبيوتر، مع إطلاق نظام التشغيل الجديد العام المقبل. اكتشف تداعيات ذلك على مستقبل الحوسبة ودور كوالكوم في هذا التطور.
ADVERTISEMENT