تم النشر على: 30 يوليو 2025 / تحديث من: 30 يوليو 2025 – المؤلف: Konrad Wolfenstein
الهجوم الكبير من الذكاء الاصطناعي في الصين: مع WAN 2.2 يريد Alibaba التغلب على الغرب – ويفعل كل المصدر المفتوح – الصورة: xpert.digital
هذا هو Wunder-ki Wan2.2 الجديد من Albaba: مجاني ، أقوى من المنافسة ومتاحة للجميع
استجابة الفيديو في الصين على سورا فون أوبايدااي: ينشئ هذا الذكاء الاصطناعى الجديد مقاطع فيديو في جودة السينما – وهو أيضًا مجاني
نشرت شركة التكنولوجيا الصينية Alibaba نسخة جديدة مثيرة للاهتمام من نموذج الفيديو المفتوح المصدر في 29 يوليو 2025 مع WAN2.2 وبالتالي غيرت بشكل أساسي مشهد الذكاء الاصطناعي لإنتاج الفيديو. تمثل هذه التكنولوجيا المبتكرة أول نموذج فيديو مفتوح المصدر في العالم الذي نفذ بنية مزيج من الخبراء (MOE) وتم تصميمها لكل من إنتاجات الأفلام المهنية وللاستخدام على الأجهزة المتاحة تجاريًا.
مناسب ل:
- تستثمر Alibaba أكثر من 50 مليار دولار في الذكاء الاصطناعي والحوسبة السحابية – تلعب الذكاء العام الاصطناعي (AGI) دورًا رئيسيًا
الثورة التكنولوجية من خلال بنية MOE
لأول مرة ، يقدم WAN2.2 بنية مزيج من الخبراء في النماذج التعبدية للفيديو ، وهو بمثابة اختراق تكنولوجي كبير. تعمل هذه الهندسة المعمارية المبتكرة مع نظام خبراء مزدوج يقسم عملية تنظيم الفيديو إلى مرحلتين متخصصين. يركز الخبير الأول على المراحل المبكرة من قمع الضوضاء ويحدد التصميم الأساسي للمشهد ، في حين أن الخبير الثاني يتولى المراحل اللاحقة ويقوم بتحسين التفاصيل والقوام.
يحتوي النظام على ما مجموعه 27 مليار معلمة ، ولكنه ينشط فقط 14 مليار معلمة لكل خطوة استنتاج ، مما يقلل من جهود الحوسبة بنسبة تصل إلى 50 في المائة دون التأثير على الجودة. تتيح هذه الزيادة في الكفاءة توليد مقاطع فيديو عالية الجودة ، في حين تظل تكاليف الحوسبة ثابتة وفي نفس الوقت يتم توسيع سعة النموذج الإجمالية.
جماليات الأفلام والتحكم السينمائي
ميزة رائعة لـ WAN2.2 هي نظام التحكم الجمالي السينمائي ، والذي يمكّن المستخدمين من تنفيذ التحكم الدقيق في مختلف الأبعاد البصرية. تم تدريب النموذج ببيانات جمالية منسقة بعناية تحتوي على ملصقات مفصلة للإضاءة والتكوين والتباين واللون وموقد الكاميرا وحجم الصورة وطول البؤرة وغيرها من المعلمات السينمائية.
تعتمد هذه الوظيفة على نظام موجه مستوحى سينمائيًا يصنف الأبعاد الرئيسية مثل الإضاءة والإضاءة والتكوين والتلوين. نتيجة لذلك ، يمكن لـ WAN2.2 أن يفسر بالضبط وتنفيذ النوايا الجمالية للمستخدمين أثناء عملية التوليد ، مما يتيح إنشاء مقاطع فيديو ذات تفضيلات سينمائية قابلة للتخصيص.
بيانات التدريب الممتدة وتوليد الحركة المعقدة
مقارنة بالسلف WAN2.1 ، تم توسيع مجموعة بيانات التدريب بشكل كبير: 65.6 في المائة من بيانات الصور و 83.2 في المائة من بيانات الفيديو. يعمل توسيع البيانات الضخم هذا بشكل كبير على تحسين مهارات تعميم النموذج ويزيد من التنوع الإبداعي في عدة أبعاد مثل الحركة والدلالات والجمال.
يُظهر النموذج تحسينات كبيرة في إنتاج الحركات المعقدة ، بما في ذلك تعبيرات الوجه الحيوية وإيماءات اليد الديناميكية والحركات الرياضية المعقدة. بالإضافة إلى ذلك ، فإنه يوفر تمثيلات واقعية مع تحسين الامتثال للقيادة والامتثال للقوانين الفيزيائية ، مما يؤدي إلى تسلسلات فيديو أكثر طبيعية ومقنعة.
استخدام الأجهزة الفعالة وسهولة الوصول إليها
يوفر WAN2.2 ثلاثة متغيرات نموذجية مختلفة تغطي متطلبات مختلفة وتكوينات الأجهزة:
- WAN2.2-T2V-A14B: نموذج من النص إلى الفيديو مع 27 مليار معلمة (14 مليار نشط) ، والذي يولد مقاطع فيديو بدقة 720 بكسل و 16 إطارًا في الثانية.
- WAN2.2-I2V-A14B: نموذج صورة إلى Video مع نفس الهندسة المعمارية لتحويل الصور الثابتة إلى مقاطع فيديو.
- WAN2.2-TI2V-5B: نموذج معلمة مضغوط 5 مليارات الذي يجمع بين كل من وظائف النص إلى video و Image-to-Video في إطار موحد.
يعد طراز TI2V-5B المضغوط بمثابة اختراق خاص ، حيث يمكنه إنشاء مقاطع فيديو 720 بكسل 5 ثوانٍ في أقل من 9 دقائق على وحدة معالجة الرسومات المستهلك الواحدة مثل RTX 4090. هذه السرعة تجعلها واحدة من أسرع طرز 720p@24fps وتمكّن كل من التطبيقات الصناعية والبحث الأكاديمي للاستفادة من التكنولوجيا.
بنية VAE المتقدمة لضغط محسّن
يعتمد نموذج TI2V 5B على بنية VAE ثلاثية الأبعاد عالية الكفاءة مع نسبة ضغط 4 × 16 × 16 ، مما يزيد من إجمالي معدل ضغط المعلومات إلى 64. مع طبقة تصحيح إضافية ، تصل نسبة الضغط الإجمالية إلى الحد الأدنى من متطلبات الذاكرة.
تتيح تقنية الضغط المتقدمة هذه النموذج لدعم كل من مهام النص والفيديو والفيديو في إطار واحد موحد ، والذي يغطي كل من البحث الأكاديمي والتطبيقات العملية.
الأداء القياسي وموقف السوق
تم اختبار WAN2.2 ضد نماذج فيديو AI التجارية الرائدة بمساعدة جناح تقييم Wan-Bench 2.0 الجديد ، بما في ذلك Sora و Kling 2.0 و Hailuo 02. تظهر النتائج أن WAN2.2 يحقق أداءً على أحدث طراز في غالبية الفئات ويتجاوز منافسيها الرفيع المستوى.
في المقارنة بين الترتيب المباشر ، حصل WAN2.2-T2V-A14B على المركز الأول في أربعة من الأبعاد المعيارية المركزية الستة ، بما في ذلك الجودة الجمالية وديناميات الحركة. يؤسس هذا الأداء WAN2.2 كقائد جديد للسوق مفتوح المصدر في توليد الفيديو عالي الدقة.
توافر مفتوح المصدر وتكامله
يتوفر WAN2.2 كبرنامج مفتوح المصدر بالكامل ضمن ترخيص Apache 2.0 ويمكن تنزيله من خلال Hugging Face و Github و ModelsCope. تم دمج النماذج بالفعل في أطر عمل شائعة مثل Comfyui وناشر ، والتي تتيح الاستخدام السلس في سير العمل الحالي.
تتوفر مساحة Hugging Face للاستخدام المباشر لطراز TI2V 5B ، مما يعني أنه يمكن للمستخدمين تجربة التكنولوجيا فورًا دون الحاجة إلى تنفيذ عمليات تثبيت معقدة. يضعف إمكانية الوصول هذا الوصول إلى تقنية توسعة الفيديو إلى الدولة ويعزز الابتكار في مجتمع المطورين بأكمله.
هجوم من الذكاء الاصطناعي الاستراتيجي الصيني
يعد نشر WAN2.2 جزءًا من استراتيجية AI صينية مفتوحة المصدر أوسع والتي جذبت بالفعل الانتباه الدولي مع نماذج مثل Deepseek. تتبع هذه الاستراتيجية خطة الرقمنة الصينية الرسمية ، التي تعزز تعاون المصادر المفتوحة كمورد وطني منذ عام 2018 وتوفر استثمارات حكومية ضخمة في البنية التحتية لمنظمة العفو الدولية.
سجل Alibaba بالفعل أكثر من 5.4 مليون تنزيل من نماذج WAN الخاصة به على Hugging Face و ModelsCope ، مما يؤكد الطلب الدولي القوي على حلول الذكاء الاصطناعى المصدر الصيني المصدر الصيني. تخطط الشركة لمزيد من الاستثمارات التي تبلغ حوالي 52 مليار دولار في الحوسبة السحابية والبنية التحتية لمنظمة العفو الدولية لتوحيد موقعها في هذا السوق السريع.
مناسب ل:
يوفر WAN2.2 اختراقًا على مقاطع فيديو الذكاء الاصطناعي: المصدر المفتوح على مستوى احترافي
يمثل WAN2.2 نقطة تحول في AI VideoGenization لأنه يوفر أول بديل مفتوح المصدر يتم دفعه ، نماذج ملكية يمكن أن تتنافس مع الحلول التجارية. يضع مزيج من الجودة السينمائية ، واستخدام الأجهزة الفعالة ، وإكمال توافر المصدر المفتوح ، النموذج كبديل جذاب لمصنعي المحتوى وصانعي الأفلام والمطورين في جميع أنحاء العالم.
من المرجح أن يزيد المنشور من المنافسة في مجال تنظيم فيديو الذكاء الاصطناعي وقد يتسبب في متابعة شركات أخرى استراتيجيات مفتوحة المصادر. مع قدرتها على التشغيل على أجهزة المستهلكين وتقديم نتائج مهنية ، يتمتع WAN2.2 بإمكانية إضفاء الطابع الديمقراطي على إنتاج الفيديو وفتح فرص إبداعية جديدة.
من خلال الجمع بين التكنولوجيا المتقدمة مع الفلسفة التنموية المفتوحة ، يحدد Alibaba مع WAN2.2 معايير جديدة في AI VideoGinization وتأسيس الصين كقوة رائدة في ابتكار الذكاء الاصطناعي العالمي. ستغير الآثار البعيدة لهذا التطور الطريقة التي يتم بها إنشاء مقاطع الفيديو وإنتاجها ، في السنوات القادمة.
مناسب ل:
تحول الذكاء الاصطناعي ، وتكامل الذكاء الاصطناعى وخبير صناعة منصة الذكاء الاصطناعى
☑️ لغة العمل لدينا هي الإنجليزية أو الألمانية
☑️ جديد: المراسلات بلغتك الوطنية!
سأكون سعيدًا بخدمتك وفريقي كمستشار شخصي.
يمكنك الاتصال بي عن طريق ملء نموذج الاتصال أو ببساطة اتصل بي على +49 89 89 674 804 (ميونخ) . عنوان بريدي الإلكتروني هو: ولفنشتاين ∂ xpert.digital
إنني أتطلع إلى مشروعنا المشترك.