منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

29-07-2025
متصفحات الذكاء الاصطناعي تصل: خبراء يحذرون من حقبة مراقبة جديدة وتغيير شامل في محركات البحث
متصفحات الجوال المدعومة بالذكاء الاصطناعي مثل Comet من Perplexity أصبحت هنا، واعدة بتجارب مخصصة ولكنها تثير مخاوف بشأن المراقبة الرقمية ومستقبل تحسين محركات البحث العالمية (GEO).
ADVERTISEMENT
11-06-2025
أندرويد 16 يطلق أربع ترقيات مجانية رئيسية لهاتفك
اكتشف الترقيات المجانية الأربع الرئيسية القادمة لهواتف Android مع إصدار Android 16، مما يعزز الأمان والإنتاجية وتجربة المستخدم.
05-08-2025
يوتيوبر يُخضِع سامسونج جالكسي زد فولد 7 لـ 200 ألف طية في اختبار متانة قصوى
يجري أحد مستخدمي يوتيوب اختبار متانة قصوى على هاتف سامسونج جالكسي زد فولد 7، حيث يقوم بطيه 200 ألف مرة لتقييم مرونة مفصلته وشاشته.
18-06-2025
استيلاء الذكاء الاصطناعي على مكان العمل: أكثر من 40% من الموظفين يستخدمون الذكاء الاصطناعي الآن
كشف استطلاع حديث أجرته مؤسسة غالوب أن أكثر من 40% من الموظفين الأمريكيين يستخدمون الآن أدوات الذكاء الاصطناعي في عملهم، وهي زيادة كبيرة في غضون عامين فقط، مما يسلط الضوء على التأثير المتزايد للذكاء الاصطناعي في مكان العمل الأمريكي.
ADVERTISEMENT
04-07-2025
التحول الكبير في بيتكوين: الحيتان تبيع ممتلكاتها للمستثمرين المؤسسيين
اكتشف لماذا سعر البيتكوين راكد: الحيتان تتخلص من ممتلكاتها للمستثمرين المؤسسيين، مما يغير بشكل أساسي ديناميكيات سوق العملات المشفرة.
24-09-2025
مراجعة Nothing Ear 3: صوت ممتاز يلتقي بميكروفون "سوبر مايك" دون المستوى
مراجعة شاملة لسماعات الأذن اللاسلكية Nothing Ear 3، تسلط الضوء على جودة الصوت الرائعة والتصميم الأنيق، مع فحص نقدي لميزة "Super Mic" ذات الأداء الضعيف.
10-07-2025
هل الروبوتات الشبيهة بالبشر هي مستقبل أتمتة المستودعات؟
استكشف تحديات ومستقبل الروبوتات الشبيهة بالبشر في المستودعات، بما في ذلك التكلفة وقابلية التوسع ومخاوف السلامة، ولماذا قد تكون الروبوتات ذات العجلات أكثر جدوى.
ADVERTISEMENT
05-08-2025
الروبوتات الشبيهة بالبشر على وشك إحداث ثورة في صناعة الروبوتات
الروبوتات الشبيهة بالبشر على وشك إحداث ثورة في صناعة الروبوتات، مع مقاطع الفيديو الفيروسية وجهود الشركات التي تسلط الضوء على إمكاناتها. اكتشف تأثير هذه الآلات المتطورة.
21-07-2025
أوبر وبايدو تطلقان سيارات الأجرة الروبوتية في آسيا والشرق الأوسط
أوبر وبايدو تطلقان خدمات سيارات الأجرة الروبوتية في آسيا والشرق الأوسط، مما يمثل توسعًا عالميًا كبيرًا للمركبات ذاتية القيادة والتنقل الحضري.
28-05-2025
فضيحة الذكاء الاصطناعي في المحاكم: مكتب محاماة آخر يتعرض للانتقادات بسبب أخطاء ChatGPT
فضيحة جديدة في الساحة القانونية الأمريكية تتعلق باستخدام الذكاء الاصطناعي، حيث اعتذر مكتب محاماة عن تقديم استشهادات قانونية خاطئة بسبب ChatGPT.
ADVERTISEMENT
09-09-2025
نفايات بلاستيكية تتحول إلى مادة آكلة للكربون على يد علماء دنماركيين
حوّل علماء دنماركيون ببراعة النفايات البلاستيكية إلى مادة قوية قادرة على امتصاص الكربون، مما يقدم حلاً جديداً لمكافحة التلوث وتغير المناخ.
28-05-2025
آبل تستحوذ على أول استوديو ألعاب لها وتخطط للكشف عن تطبيق ألعاب جديد في WWDC 2025
آبل تستحوذ على أول استوديو ألعاب لها، RAC7، وتخطط للكشف عن تطبيق ألعاب جديد في WWDC 2025 لتعزيز وجودها في سوق الألعاب.
28-07-2025
كينون للروبوتات تتبنى نهجًا تدريجيًا لنشر الروبوتات البشرية
كينون روبوتكس المدعومة من سوفت بنك تحدد استراتيجيتها البراغماتية لتطوير الروبوتات البشرية، مع التركيز على التكامل التدريجي والمهام البسيطة قبل السعي لتحقيق تطبيقات متعددة الاستخدامات.
ADVERTISEMENT
14-08-2025
الثلاثاء الخاص بتصحيحات مايكروسوفت لشهر أغسطس: إصلاح ثغرة كيربيروس ليوم الصفر و110 ثغرات أخرى
يعالج الثلاثاء الأمني لشهر أغسطس 2025 من مايكروسوفت 111 ثغرة أمنية، بما في ذلك ثغرة حرجة من نوع "يوم الصفر" في Kerberos (CVE-2025-53779) وثغرات أخرى عالية الخطورة في Azure و GDI+ ورسومات Windows.
02-07-2025
الألعاب العالمية للروبوتات الشبيهة بالبشر تكشف عن فعاليات جديدة رائدة
اكتشف فعاليات المنافسة الجديدة والمثيرة التي كشفت عنها ألعاب الروبوتات البشرية العالمية، والتي تدفع حدود قدرات الروبوتات البشرية في الرشاقة والدقة والتعاون.
22-08-2025
Xbox Ally: جهاز مايكروسوفت المحمول يمهد الطريق لنظام تشغيل ألعاب ويندوز موحد
استكشف جهاز Xbox Ally المحمول من مايكروسوفت، وهو جهاز يقدم لمحة عن نظام تشغيل ويندوز مستقبلي للألعاب بواجهته المبسطة وتكامله المحسن مع ألعاب الكمبيوتر.
ADVERTISEMENT