الخلفية:

إنفيديا NVIDIA تطلق نموذجًا مفتوح المصدر لتدريب الروبوتات على 44 ألف ساعة من الفيديو البشري

دخلت إنفيديا NVIDIA رسميًا سباق بناء العقل الذي سيقود الجيل القادم من الروبوتات، بإطلاق DreamDojo، نموذج عالمي مفتوح المصدر يتعلم كيف تتفاعل الآلات مع العالم الفيزيائي عبر مشاهدة 44,711 ساعة من فيديوهات البشر.

الخطوة تمثل تحولًا مهمًا في سباق الذكاء الاصطناعي المادي، حيث لم يعد التدريب يعتمد فقط على المحاكاة الفيزيائية التقليدية، بل على التعلم من السلوك البشري الحقيقي.

تعليم الروبوتات

وصف الدكتور جيم فان من إنفيديا المشروع بأنه “المحاكاة 2.0”، في إشارة إلى الانتقال من محركات الفيزياء اليدوية إلى نماذج تتنبأ بالحالات المستقبلية بالكامل عبر البكسلات، دون الحاجة إلى قواعد ديناميكية مكتوبة مسبقًا.

النموذج يستقبل إشارات التحكم الحركي للروبوت، ويولد توقعات بصرية للحالات القادمة، كما لو كان “يتخيل” ما سيحدث بعد تنفيذ حركة معينة.

في قلب النظام توجد قاعدة بيانات DreamDojo-HV، التي تقول الشركة إنها أكبر مجموعة فيديوهات بشرية من منظور الشخص الأول تم تجميعها لتدريب نماذج عالمية للروبوتات.

البيانات تغطي أكثر من 6,000 مهمة مختلفة وأكثر من مليون مسار حركي، وتفوق أي مجموعة بيانات سابقة في التنوع الحجمي والمشهدي بأضعاف.

كيف يتعلم الروبوت من فيديو بشري؟

المعضلة الأساسية أن فيديوهات البشر لا تحتوي على أوامر حركية خاصة بالروبوتات. لحل هذه المشكلة، قدم الفريق مفهوم “الأفعال الكامنة المستمرة”، وهي آلية تعلم ذاتي تستنتج ما تغيّر بين الإطارات دون الحاجة لمعرفة نوع العتاد المستخدم.

بهذا الأسلوب، يمكن للنموذج التعامل مع أي فيديو منظور أول كما لو كان يحتوي على تعليمات حركية مرفقة.

من التدريب إلى العالم الحقيقي

بعد مرحلة التدريب المسبق على الفيديوهات البشرية، يخضع DreamDojo لمرحلة تكييف مع بيانات روبوتات محددة مثل GR-1 وG1 وروبوتات بشرية أخرى.

عبر عملية تقطير للنموذج، تمكن الفريق من الوصول إلى سرعة استدلال تبلغ 10.81 إطارًا في الثانية، مع قدرة على العمل المستمر لأكثر من دقيقة.

هذه السرعة تفتح الباب لتطبيقات عملية مثل:

التحكم عن بُعد باستخدام نظارات الواقع الافتراضي

اختبار السياسات الحركية دون نشر فعلي

التخطيط المعتمد على النموذج

في تجربة تعبئة فواكه، حقق النظام تحسنًا بنسبة 17% في معدلات النجاح الواقعية.

نسختان… ورهان استراتيجي

أطلقت إنفيديا نسختين من النموذج:

نسخة بـ2 مليار معلمة

ونسخة أكبر بـ14 مليار معلمة

كلاهما تم تدريبهما على 256 وحدة H100، وبُنيا فوق منصة Cosmos-Predict 2.5 مفتوحة الأوزان.

الأهم أن الشركة أصدرت الأوزان البرمجية والكود وقواعد بيانات التدريب وأدوات التقييم، ما يجعل المشروع متاحًا للباحثين والمطورين حول العالم.

سباق الذكاء الاصطناعي المادي

إطلاق DreamDojo يأتي في وقت تتزايد فيه المنافسة في مجال “نماذج العالم” للروبوتات، مع جهود من جهات مثل Google DeepMind ومختبرات ناشئة أخرى.

الرئيس التنفيذي لإنفيديا، جنسن هوانغ، كان قد صرّح في معرض CES 2026 بأن “لحظة ChatGPT للروبوتات قد وصلت”، في إشارة إلى أن القطاع يقترب من نقطة تحول مشابهة لما حدث مع النماذج اللغوية.

وفي ظل استثمارات تجاوزت 26 مليار دولار في شركات الروبوتات خلال عام واحد فقط، يبدو أن إنفيديا تراهن على أن ربط مجتمع البحث بمنظومتها البرمجية والعتادية سيعزز موقعها في قلب هذه الثورة.

ماذا يعني هذا للمستقبل؟

إذا نجحت نماذج العالم في تمكين الروبوتات من فهم الفيزياء والسلوك البشري عبر المشاهدة، فقد نشهد انتقالًا من روبوتات متخصصة إلى روبوتات عامة قادرة على التكيف مع مهام متعددة.

اقرأ أيضاً