منصة تقييم الذكاء الاصطناعي تحت المجهر: دراسة تكشف تلاعب الشركات الكبرى

التكنولوجيا اليومية

التكنولوجيا اليومية

·

23/05/2025

button icon
ADVERTISEMENT

تواجه منصة تقييم الذكاء الاصطناعي الشهيرة LM Arena انتقادات شديدة من قبل الباحثين الذين يدعون أن اختبارات المنصة تفضل نماذج الذكاء الاصطناعي الخاصة بالشركات الكبرى. هذه الادعاءات تثير تساؤلات حول كيفية اختبار نماذج الذكاء الاصطناعي بشكل عادل ومتسق.

النقاط الرئيسية

خلفية عن LM Arena

بدأت LM Arena كمشروع بحثي في عام 2023 من قبل باحثين في جامعة كاليفورنيا، بيركلي. سرعان ما أصبحت المنصة وجهة مفضلة للشركات الكبرى ونماذج الذكاء الاصطناعي المفتوحة لاختبار أدائها. المنصة تعتمد على تحليل ردود الفعل من المستخدمين بدلاً من المعايير الأكاديمية التقليدية، مما جعلها تجذب أكثر من مليون زائر شهريًا.

ADVERTISEMENT

نتائج الدراسة

في الدراسة التي نُشرت في 29 أبريل، أشار الباحثون إلى أن النماذج الرائدة من شركات مثل ميتا وأوبن إيه آي وجوجل حصلت على 19.2% و20.4% من البيانات على التوالي، بينما حصلت 83 نموذجًا مفتوحًا على 29.7% فقط.

ردود الفعل

لم تقدم LM Arena تعليقًا رسميًا على الدراسة، لكنها أكدت عبر وسائل التواصل الاجتماعي أنها تحاول دائمًا تلبية طلبات التقييم من جميع مقدمي النماذج. كما أشاروا إلى أن الاختلاف في عدد الاختبارات المقدمة لا يعني أن بعض مقدمي النماذج يتلقون معاملة غير عادلة.

ADVERTISEMENT

أهمية النتائج

تثير هذه النتائج تساؤلات حول مصداقية LM Arena كمعيار لتقييم الذكاء الاصطناعي. مع تزايد أهمية الذكاء الاصطناعي في مختلف المجالات، يصبح من الضروري تطوير طرق تقييم أكثر عدلاً وموضوعية.

في ظل هذه الظروف، يتعين على المجتمع العلمي والمطورين العمل معًا لضمان أن تكون اختبارات الذكاء الاصطناعي عادلة وموثوقة، مما يساهم في تحسين جودة النماذج وتقديم نتائج دقيقة للمستخدمين.

قراءة مقترحة

03-06-2025
الصين تقود سباق الروبوتات البشرية: هل يخشى إيلون ماسك الهيمنة؟
تتسابق الشركات الناشئة في الصين لتطوير روبوتات بشرية تعمل بالذكاء الاصطناعي، مما يثير قلق إيلون ماسك بشأن هيمنة الصين المتزايدة في هذا المجال.
ADVERTISEMENT
13-08-2025
الذكاء الاصطناعي يرسب في اختبار التاريخ: لماذا لا تستطيع الروبوتات أن تحل محل المؤرخين البشريين بعد
استكشف لماذا تكافح نماذج الذكاء الاصطناعي الحالية مع الدقة التاريخية، كما يتضح من الاختبارات على عادات مشاهدة الأفلام الرئاسية، مما يسلط الضوء على الأهمية المستمرة للمؤرخين البشريين.
17-07-2025
Hugging Face's Reachy Mini: روبوت سطح المكتب متاح الآن للطلب المسبق
كشفت Hugging Face عن الطلبات المسبقة لـ Reachy Mini، وهو روبوت مكتبي مفتوح المصدر بحجم 11 بوصة في نموذجين، مما يمكّن المطورين والمعلمين من إجراء تجارب الذكاء الاصطناعي العملية.
26-05-2025
آبل تستعد لإطلاق مركزها الذكي للمنزل في نهاية العام
تستعد آبل لإطلاق مركزها الذكي للمنزل بحلول نهاية العام، مع تصميم يجمع بين HomePod وiPad ونظام تشغيل جديد. تعرف على التفاصيل.
ADVERTISEMENT
21-07-2025
الكشف عن القيمة الحقيقية في سماعات الأذن الاقتصادية: نظرة متعمقة على الجواهر الخفية
استكشف كيفية العثور على سماعات أذن اقتصادية قيّمة، وفهم عمليات التصنيع، وخيارات التصميم، والاختلافات الدقيقة التي تجعل النماذج ذات الأسعار المعقولة متميزة.
30-05-2025
صعود لابوبو الفيروسي: المضاربون يفسدون متعة الجمع
تُواجه شخصيات لابوبو المحبوبة من بوب مارت تحديات كبيرة بسبب تزايد نشاط البائعين والمضاربين، مما أدى إلى فوضى في المتاجر وعلى الإنترنت.
16-06-2025
ثورة أمازون الروبوتية: هل التوصيل بواسطة الروبوتات البشرية في الأفق؟
تفيد التقارير بأن أمازون تعمل على تطوير روبوتات بشرية لتوصيل الطرود، وهي خطوة قد تحدث تحولًا في مجال الخدمات اللوجستية وتؤثر على وظائف التوصيل التي يشغلها البشر. تعرف على المزيد حول طموحات أمازون في مجال الروبوتات ومستقبل التجارة الإلكترونية.
ADVERTISEMENT
03-06-2025
تحول الثروات في الشرق الأوسط: هل التكنولوجيا هي المفتاح؟
اكتشف كيف يمكن للتكنولوجيا أن تسهل نقل أكثر من تريليون دولار من الأصول في الشرق الأوسط بحلول عام 2030، مع التركيز على الرقمنة، الذكاء الاصطناعي، والبلوك تشين.
04-06-2025
أنبرنيك تكشف عن RG Slide: جهاز محمول قديم مستوحى من هواتف 2000s المنزلقة
جهاز RG Slide الجديد المحمول من Anbernic يجمع بين حنين هواتف 2000s المبكرة المنزلقة مع إمكانيات المحاكاة الحديثة، حيث يعمل بنظام Android ويدعم مجموعة واسعة من الألعاب الكلاسيكية.
05-08-2025
روبوت بشري يذهل نيويورك: يجرب أحذية رياضية، ويلتقط هوت دوغ في حيلة انتشرت على نطاق واسع
روبوت بشري يُدعى كويد (KOID) أحدث ضجة في ميدتاون، نيويورك، من خلال قياس أحذية رياضية وتناول الهوت دوغ كجزء من حيلة ترويجية لصندوق KraneShares المتداول الجديد (ETF)، مما أثار ردود فعل متباينة من الجمهور.
ADVERTISEMENT
02-07-2025
السباق إلى سدنا: مفاهيم دفع جديدة يمكن أن تقلل وقت السفر إلى الكوكب القزم البعيد إلى النصف
تقنيات الدفع الجديدة يمكن أن تمكن مهمة إلى الكوكب القزم الغامض سدنا في 7-10 سنوات، مما يوفر رؤى غير مسبوقة في النظام الشمسي الخارجي.
26-05-2025
فضلات البطاريق قد تساعد في مكافحة تغير المناخ
دراسة جديدة تكشف كيف يمكن لفضلات البطاريق أن تساهم في مكافحة تغير المناخ من خلال زيادة تركيز الأمونيا وتكوين السحب في القارة القطبية الجنوبية.
12-08-2025
تسريب ضخم من جوجل يكشف عن تفاصيل كاملة لسلسلة بيكسل 10 قبل الإطلاق
تسريب ضخم يكشف عن تفاصيل واسعة حول هواتف جوجل القادمة Pixel 10 و Pixel 10 Pro و Pixel 10 Pro XL و Pixel 10 Pro Fold، بما في ذلك المواصفات والكاميرات والميزات.
ADVERTISEMENT
21-05-2025
جوجل تبدأ في دمج روبوت الدردشة الذكي في محرك البحث
جوجل تعلن عن دمج روبوت الدردشة الذكي في محرك البحث، مما يتيح تجربة محادثة أكثر تعقيدًا للمستخدمين، مع خطط لتطوير نظارات ذكية جديدة.
19-06-2025
بقعة شمسية غير مستقرة تطلق توهجًا شمسيًا قياسيًا، مما يعطل الاتصالات في المحيط الهادئ
أطلقت بقعة شمسية كبيرة وغير مستقرة، المنطقة 4114، أقوى توهج شمسي لها حتى الآن، وهو انفجار من فئة X1.12، مما تسبب في انقطاع كبير للراديو فوق المحيط الهادئ، بما في ذلك هاواي.
13-08-2025
استغلت مجموعات الجريمة السيبرانية الروسية ثغرة وينرار ليوم الصفر لأسابيع
تستغل مجموعتان روسيتان للجريمة السيبرانية، وهما رومكوم وبيبر وير وولف، بنشاط ثغرة أمنية حرجة من نوع "يوم الصفر" في برنامج وينرار (CVE-2025-8088) منذ أسابيع، وذلك لزرع أبواب خلفية في الأنظمة المستهدفة.
ADVERTISEMENT