الروبوتات تتعلم الآن التحدث من خلال مشاهدة يوتيوب

التكنولوجيا اليومية

13/03/2026

يظهر مجال جديد في الذكاء الاصطناعي، ليس من خلال الأكواد المعقدة، بل من خلال الملاحظة البسيطة. طور باحثون في جامعة كولومبيا للهندسة رأسًا آليًا اسمه EMO تعلم التحدث والغناء بالتزامن مع الكلام البشري، وذلك ببساطة من خلال مشاهدة مئات الساعات من مقاطع الفيديو على يوتيوب. يسلط هذا الإنجاز الضوء على عدة اتجاهات رئيسية تشكل مستقبل التفاعل بين الإنسان والروبوت.

التعلم بالملاحظة يتصدر المشهد

بدلاً من برمجتها بقواعد مكتوبة يدويًا لكل حركة فم، تتعلم الروبوتات الآن من خلال عملية مشابهة لكيفية تعلم البشر: بالمشاهدة والتقليد. يتضمن هذا النهج تدريب نموذج ذكاء اصطناعي على مجموعات بيانات ضخمة من المعلومات المرئية والصوتية. يتعلم النظام ربط أصوات معينة بحركات الوجه المقابلة المطلوبة لإنتاجها. هذه الطريقة تمثل تحولًا كبيرًا عن الروبوتات التقليدية، التي تعتمد على تعليمات صريحة ومحددة مسبقًا لكل إجراء.

يمثل الروبوت EMO تجسيدًا لهذا الاتجاه. بدأ تدريبه بمرحلة اكتشاف الذات، حيث قام بحركات وجه عشوائية أمام مرآة لبناء خريطة داخلية لقدراته الخاصة. بعد ذلك، قام بمعالجة ساعات من مقاطع الفيديو عبر الإنترنت لأشخاص يتحدثون ويغنون. من خلال تحليل هذه البيانات إطارًا تلو الآخر، تعلم الذكاء الاصطناعي الخاص به التنبؤ بالأوامر الحركية الدقيقة اللازمة لتكرار حركات الشفاه الشبيهة بالبشر مباشرة من المدخلات الصوتية، وهي طريقة أثبتت فعاليتها أكثر من الأساليب الحالية.

الروبوتات اللينة تتغلب على "الوادي الغريب"

لجعل التفاعلات تبدو طبيعية، يجب أن تبدو الروبوتات مناسبة. يتجه الاتجاه بعيدًا عن المكونات الجامدة والميكانيكية نحو التصاميم اللينة والمرنة التي تحاكي البيولوجيا البشرية بشكل أفضل. هذه الروبوتات اللينة ضرورية لإنشاء تعابير دقيقة وسهلة الاقتراب، مما يساعد على سد "الوادي الغريب" الذي يجعل الروبوتات غالبًا ما تبدو مزعجة للبشر. هذا مهم بشكل خاص للتطبيقات التي تكون فيها الثقة والعلاقة ضرورية، مثل الرعاية الصحية أو التعليم أو خدمة العملاء.

يتميز تصميم EMO بجلد سيليكون ناعم يغطي 26 مشغلًا تتحكم في حركات وجهه. هذا يسمح بدرجة عالية من الدقة، مما يمكّن الروبوت من تشكيل أصوات لـ 24 حرفًا ساكنًا و 16 حرفًا متحركًا. هذا يتناقض بشكل صارخ مع حركات الفك البسيطة المفتوحة والمغلقة للعديد من الروبوتات التقليدية، مما يسمح بتعابير وجه أكثر واقعية وأقل ترهيبًا. أظهرت الأبحاث السابقة مع EMO بالفعل أنه يمكنه عكس ابتسامة بشرية في الوقت الفعلي، مما يدل على قوة الوجوه المعبرة في بناء الثقة.

دمج الوجوه المعبرة مع الذكاء الاصطناعي الحواري

الهدف النهائي هو إنشاء روبوتات لا تستطيع التحدث فحسب، بل يمكنها أيضًا إجراء محادثات بطريقة جذابة للغاية. الاتجاه الرئيسي التالي هو دمج الروبوتات المعبرة جسديًا مع أنظمة الذكاء الاصطناعي الحوارية المتقدمة مثل ChatGPT أو Gemini. يمكن أن يؤدي الجمع بين مزامنة الشفاه الواقعية وتعابير الوجه مع القدرات اللغوية لهذه النماذج إلى خلق شعور عميق بالاتصال والحضور، مما يغير طريقة تفاعلنا مع الآلات.

يرى الباحثون في مشروع EMO، بقيادة يوهانغ هو والبروفيسور هود ليبسون، أن هذا وسيلة لجعل التفاعلات تبدو أقل شبهاً بالتحدث إلى مكبر صوت ذكي وأكثر شبهاً بالتواصل مع كيان مجسد. جذب المشروع بالفعل دعمًا من المؤسسة الوطنية للعلوم الأمريكية وأمازون، مما يشير إلى أن القطاعين العام والخاص ينظران إلى الروبوتات المعبرة كتكنولوجيا قابلة للتطبيق تجاريًا وتحويلية. بينما لا تزال هناك قيود، فإن هذا الاندماج بين التقنيات هو عنصر أساسي لجعل التواصل بين الإنسان والروبوت جزءًا طبيعيًا من الحياة اليومية.

12-03-2026

تتطور سير عمل الذكاء الاصطناعي مع تكامل Claude المحسّن في Microsoft 365

اكتشف كيف تُنشئ آخر تحديثات Anthropic لـ Claude تكاملاً أعمق وأكثر سلاسة مع Microsoft Excel و PowerPoint، مما يُحدث تحولاً في سير العمل المدعوم بالذكاء الاصطناعي.