التكنولوجيا اليومية
·24/11/2025
يتحول تقييم نماذج الذكاء الاصطناعي من اختبارات أكاديمية إلى ملاحظات يقدمها مستخدمون حقيقيون. يكتسب معيار "Humaine" الجديد من Prolific، الذي يقيس المحادثات الطبيعية، وزنًا متزايدًا. يضمن هذا التركيز أن يكون تطوير الذكاء الاصطناعي أقرب لتجربة المستخدم وتوقعاته اليومية.
تتصدر نماذج مثل Gemini 2.5 Pro من Google لأنها تُعالج وتُنشئ نصوصًا وصورًا وشيفرة. يتيح هذا الاتجاه للذكاء الاصطناعي دعم إنشاء الوسائط والتصميم والبحث، مما يزيد تكيف التكنولوجيا. تستمر Google وOpenAI في ضخ استثمارات كبيرة في هذه القدرات.
تتغير قيادة الذكاء الاصطناعي بسرعة. تتنافس شركات ناشئة مثل DeepSeek وMistral الآن مع OpenAI وGoogle. تتفوق نماذج DeepSeek v3 وMagistral Medium من Mistral في الأداء، مما يُظهر أن الابتكار يأتي غالبًا من فرق صغيرة مركزة.
تستخدم لوحة المتصدرين من Prolific أنظمة آلية للحفاظ على جودة المراجعين، مما يضمن تقييمات غير متحيزة ومدروسة للنماذج. من المرجح أن يعتمد القطاع هذا النهج، مما يزيد موثوقية التصنيفات ويؤثر على اختيار منتجات الذكاء الاصطناعي.
مع اعتماد لوحات المتصدرين لتفضيلات المستخدم كأساس، يتركز العمل على تقليل تحيز العينة. تصمّم الصناعة معايير تعكس قاعدة مستخدمين أوسع، وليس فقط المتبنين الأوائل من ذوي الخبرة التقنية. يتحسن بذلك ملاءمة الذكاء الاصطناعي وإمكانية وصول إليه.
غالبًا ما تحتل Gemini 2.5 Pro والنماذج الرائدة المرتبة الأولى بسبب التحسين المستمر والتكرار السريع. تتوقع تبادلات متكررة في لوحات المتصدرين مع تسابق الشركات لإصدار نماذج مطورة، كما يحدث مع تحديثات Google Gemini وDeepSeek المتكررة.
تتخلف ChatGPT من OpenAI، التي كانت الرائدة الواضحة، الآن عن المنافسين. احتلال ChatGPT-4.1 مرتبة أقل من نماذج DeepSeek وMistral يُظهر مشهدًا سريع التغير. يؤكد هذا للمستخدمين والمستثمرين الحاجة إلى تقييم منتظم للنماذج التي تقدم أفضل النتائج في الاستخدام الواقعي.









