منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

29-05-2025
آبل قد تغير نظام ترقيم أنظمة التشغيل ليتماشى مع سنة الإصدار
آبل قد تغير نظام ترقيم أنظمة التشغيل ليتماشى مع سنة الإصدار، مما يسهل على المستخدمين متابعة التحديثات. تعرف على التفاصيل.
ADVERTISEMENT
25-07-2025
وضع Android الجديد "الموسع" المظلم: نعمة لإمكانية الوصول، ولكن مع مشكلة
وضع Android الجديد "الموسع" للوضع المظلم يجبر التطبيقات التي لا تدعم الوضع المظلم أصلاً على واجهة أغمق لتحسين إمكانية الوصول، ولكنه قد يسبب مشاكل بصرية. تعرف على المزيد حول هذه الميزة وعيوبها المحتملة.
23-05-2025
التحديات الأخلاقية في استخدام الذكاء الاصطناعي في قاعات المحاكم
تتناول هذه المقالة التحديات الأخلاقية المرتبطة باستخدام الذكاء الاصطناعي في قاعات المحاكم، مع التركيز على حالة فريدة حيث تم استخدام الذكاء الاصطناعي لإنشاء فيديو لشقيق متوفى يتحدث في جلسة الحكم.
10-07-2025
الروبوتات الشبيهة بالبشر: جبهة جديدة في الرعاية الصحية لمكافحة إجهاد المستشفيات
تُظهر الروبوتات الشبيهة بالبشر وعدًا في الجراحة والإجراءات الطبية، مما قد يخفف الضغط على المستشفيات والإرهاق الذي يعاني منه الأطباء، وفقًا لبحث جديد.
ADVERTISEMENT
01-07-2025
هل يمكننا استخراج الذكريات من الموتى؟ علماء الأعصاب يجيبون
كشف استطلاع للعلماء الأعصاب عن اعتقاد كبير بأن الذكريات لها أساس مادي ويمكن استخلاصها من الأدمغة المحفوظة، مما يثير تساؤلات حول مستقبل الوعي.
16-07-2025
عمالقة الذكاء الاصطناعي يتحدون لحماية الشفافية الزائلة في التفكير الآلي
تحذر OpenAI و Google DeepMind و Anthropic من أن شفافية الذكاء الاصطناعي الحالية عبر التفكير المتسلسل قد تختفي، وتحث على تعاون الصناعة للحفاظ على قدرات المراقبة.
17-07-2025
أوقفت OpenAI إصدار نموذج الذكاء الاصطناعي مفتوح الوزن وسط مخاوف تتعلق بالسلامة والمنافسة مع Meta
أوبن إيه آي تؤجل نموذج الذكاء الاصطناعي مفتوح الوزن المنتظر، مشيرة إلى مخاوف تتعلق بالسلامة وسط منافسة شديدة مع ميتا ومطوري الذكاء الاصطناعي الآخرين.
ADVERTISEMENT
21-05-2025
آبل تفتح أبوابها للمطورين: استخدام نماذج الذكاء الاصطناعي
آبل تعلن عن خطط للسماح للمطورين باستخدام نماذج الذكاء الاصطناعي الخاصة بها، مما يعزز الابتكار في التطبيقات ويزيد من جاذبية منتجاتها.
04-07-2025
التحول الكبير في بيتكوين: الحيتان تبيع ممتلكاتها للمستثمرين المؤسسيين
اكتشف لماذا سعر البيتكوين راكد: الحيتان تتخلص من ممتلكاتها للمستثمرين المؤسسيين، مما يغير بشكل أساسي ديناميكيات سوق العملات المشفرة.
22-07-2025
يتيح Chrome على iOS تبديلًا سلسًا بين الملفات الشخصية وملفات العمل
يتيح Google Chrome على نظام iOS الآن التبديل السلس بين الملفات الشخصية وملفات العمل لمستخدمي المؤسسات، مما يعزز فصل البيانات وأمانها.
ADVERTISEMENT
02-07-2025
الروبوتات في الفنادق: إقامة مستقبلية أم لقاء غريب؟
استكشف كيف تستخدم الفنادق الروبوتات بشكل متزايد لخدمات الضيوف، وردود الفعل المتباينة من المسافرين، ومستقبل الذكاء الاصطناعي في صناعة الضيافة.
18-06-2025
جوجل تطلق نماذج Gemini 2.5 AI الجاهزة للإنتاج، مما يكثف التحدي لـ OpenAI
تطلق جوجل نماذج Gemini 2.5 AI الجاهزة للإنتاج، بما في ذلك Pro و Flash و Flash-Lite، لتحدي هيمنة OpenAI على الشركات من خلال تعزيز التفكير والعروض المتدرجة والتسعير القوي.
22-07-2025
سامسونج جالاكسي زد فولد 7: الهاتف القابل للطي الذي يبدو أخيرًا كما يجب
اكتشف مراجعة Samsung Galaxy Z Fold 7، التي تسلط الضوء على تصميمها الأنحف، وشاشاتها المحسنة، وأدائها القوي، وكاميرتها المطورة، مما يجعلها هاتفًا ذكيًا رائدًا قابلًا للطي.
ADVERTISEMENT
21-07-2025
اليابان H2L تكشف عن تقنية رائدة: تحكم في الروبوتات بنوايا جسدك
اكتشف واجهة الكبسولة من H2L، وهي تقنية يابانية جديدة تتيح للمستخدمين التحكم في الروبوتات الشبيهة بالبشر باستخدام حركات عضلاتهم فقط، والتقاط كل من الإجراءات والجهد من أجل تفاعل عن بعد غامر.
04-06-2025
لغز غيتار مارتي مكفلاي المفقود: البحث عن دعامة "العودة إلى المستقبل" في فيلم وثائقي جديد
غيتار مارتي ماكفلاي الأحمر الأيقوني من فيلم 'العودة إلى المستقبل' مفقود منذ عام 1989، مما دفع إلى إنتاج فيلم وثائقي جديد وبحث عام يشارك فيه طاقم العمل الأصلي.
11-07-2025
إنتل تطلق العنان لـ RealSense: وحدة الروبوتات الذكية تؤمن 50 مليون دولار في عملية فصل
تستثمر إنتل وحدة الروبوتات الذكية التابعة لها، RealSense، بجولة تمويل بقيمة 50 مليون دولار للاستفادة من سوق الروبوتات الشبيهة بالبشر المزدهر.
ADVERTISEMENT