أطلقت Ant Group نموذجًا جديدًا مفتوح المصدر باسم Ming-Flash-Omni 2.0، تقول إنه يتفوق في بعض الاختبارات على Gemini 2.5 Pro من Google، مع قدرة فريدة على توليد الكلام والموسيقى والمؤثرات الصوتية داخل ملف صوتي واحد
هذه الخطوة تعكس تصعيدًا واضحًا في سباق النماذج متعددة الوسائط، حيث لم يعد التنافس يقتصر على النص والصورة فقط، بل يمتد إلى إنتاج صوتي متكامل في الزمن الحقيقي.
ما الذي يجعل Ming-Flash-Omni 2.0 مختلفًا عن باقي النماذج؟
الميزة الأبرز في النموذج هي ما تصفه الشركة بـ”التوليد الصوتي الموحّد”، أي القدرة على إنتاج:
-
الكلام
-
الموسيقى
-
المؤثرات الصوتية
-
الأصوات البيئية
وذلك ضمن مسار صوتي واحد، مع إمكانية التحكم في خصائص الصوت عبر أوامر نصية طبيعية تشمل:
-
نبرة الصوت
-
السرعة
-
الطبقة
-
مستوى الصوت
-
العاطفة
-
اللهجة
كما يدعم النموذج ميزة الاستنساخ الصوتي دون تدريب مسبق (Zero-shot Voice Cloning)، وهي خاصية مطلوبة بقوة في إنتاج المحتوى الصوتي المخصص والبودكاست والألعاب.
أداء تقني يعتمد على معمارية ضخمة بكفاءة أعلى
يعتمد Ming-Flash-Omni 2.0 على معمارية Ling-2.0 باستخدام تصميم Mixture-of-Experts (MoE)، ويضم:
-
100 مليار معامل إجمالي
-
6.1 مليار معامل نشط لكل رمز
وتقول Ant Group إن التصميم يسمح بدمج قدرات الرؤية والصوت والتوليد داخل إطار موحد، بدلًا من استخدام نماذج منفصلة لكل مهمة، ما يقلل التعقيد الهندسي وتكلفة التشغيل.
ويعمل النموذج بسرعة استدلال تبلغ 3.1 إطار في الثانية، ما يتيح إنتاج صوت عالي الجودة لمدة دقيقة تقريبًا في الزمن الحقيقي.
مقارنة مباشرة مع Gemini 2.5 من Google
بحسب الشركة، يتفوق النموذج في بعض مؤشرات القياس المتعلقة بـ:
-
فهم اللغة البصرية
-
التوليد الصوتي المدعوم بالأوامر
-
تحرير الصور
ويضع هذا الإصدار Ant Group في منافسة مباشرة مع Gemini 2.5 Pro من Google، الذي يُعد أحد أبرز النماذج متعددة الوسائط عالميًا.
ورغم أن نتائج المقارنات تعتمد على اختبارات محددة، فإن إطلاق النموذج كمشروع مفتوح المصدر يمنحه ميزة تنافسية مهمة بين المطورين.
متاح الآن للمطورين عبر Hugging Face
أصبحت أوزان النموذج وكود الاستدلال متاحة عبر:
-
منصة Hugging Face
-
منصة Ling Studio التابعة لـ Ant
ويمثل الإصدار الجديد الجيل الثالث من سلسلة Ming-Omni، ضمن استراتيجية أوسع لتعزيز حضور الشركة في مجال الذكاء الاصطناعي المتقدم ومتعدد الوسائط.
لماذا يمثل هذا الإطلاق نقطة تحوّل؟
يشير إطلاق Ming-Flash-Omni 2.0 إلى مرحلة جديدة في سباق الذكاء الاصطناعي، حيث لم تعد المنافسة تتركز على زيادة حجم النماذج فقط، بل على دمج القدرات داخل نظام موحد يجمع النص والصوت والصورة في إطار واحد.
ومع تزايد الطلب على المحتوى الصوتي المخصص والتفاعلي، قد يصبح التوليد الصوتي المتكامل أحد أهم محاور المنافسة بين الشركات التقنية خلال 2026.


