प्रकाशन तिथि: 30 जुलाई, 2025 / अद्यतन तिथि: 30 जुलाई, 2025 – लेखक: Konrad Wolfenstein

चीन का प्रमुख एआई अभियान: वान 2.2 के साथ, अलीबाबा का लक्ष्य पश्चिम को पछाड़ना है – और वह सब कुछ ओपन सोर्स बना रहा है – चित्र: Xpert.Digital
यह अलीबाबा का नया चमत्कारिक एआई वैन 2.2 है: मुफ्त, प्रतिस्पर्धियों से अधिक शक्तिशाली और सभी के लिए उपलब्ध।
ओपनएआई के सोरा का चीन का वीडियो जवाब: यह नया एआई सिनेमा-गुणवत्ता वाले वीडियो तैयार करता है - और यह मुफ्त है।
29 जुलाई, 2025 को, चीनी प्रौद्योगिकी कंपनी अलीबाबा ने अपने ओपन-सोर्स वीडियो जनरेशन मॉडल का एक रोमांचक नया संस्करण, Wan2.2 जारी किया, जिसने वीडियो निर्माण के लिए कृत्रिम बुद्धिमत्ता के क्षेत्र में मौलिक बदलाव ला दिए। यह अभिनव तकनीक मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर को लागू करने वाला दुनिया का पहला ओपन-सोर्स वीडियो जनरेशन मॉडल है, जिसे पेशेवर फिल्म निर्माण और सामान्य हार्डवेयर दोनों पर उपयोग के लिए डिज़ाइन किया गया है।.
के लिए उपयुक्त:
- अलीबाबा एआई में $ 50 बिलियन से अधिक का निवेश करता है और क्लाउड कंप्यूटिंग-आर्टिफिक जनरल इंटेलिजेंस (एजीआई) एक केंद्रीय भूमिका निभाता है
शिक्षा मंत्रालय की वास्तुकला के माध्यम से तकनीकी क्रांति
Wan2.2 पहली बार वीडियो प्रसार मॉडल में विशेषज्ञों के मिश्रण वाली वास्तुकला को प्रस्तुत करता है, जो एक महत्वपूर्ण तकनीकी उपलब्धि है। यह अभिनव वास्तुकला एक दोहरी विशेषज्ञ प्रणाली का उपयोग करती है जो वीडियो निर्माण प्रक्रिया को दो विशिष्ट चरणों में विभाजित करती है। पहला विशेषज्ञ शोर कम करने के प्रारंभिक चरणों पर ध्यान केंद्रित करता है और बुनियादी दृश्य लेआउट निर्धारित करता है, जबकि दूसरा विशेषज्ञ बाद के चरणों को संभालता है, विवरण और बनावट को परिष्कृत करता है।.
इस सिस्टम में कुल 27 अरब पैरामीटर हैं, लेकिन यह प्रति अनुमान चरण में केवल 14 अरब पैरामीटर ही सक्रिय करता है, जिससे गुणवत्ता से समझौता किए बिना गणना में लगने वाला समय 50 प्रतिशत तक कम हो जाता है। दक्षता में इस वृद्धि से गणना लागत को स्थिर रखते हुए उच्च-गुणवत्ता वाले वीडियो बनाना संभव हो जाता है और साथ ही मॉडल की समग्र क्षमता का विस्तार भी होता है।.
फिल्म सौंदर्यशास्त्र और सिनेमाई नियंत्रण
Wan2.2 की एक खास विशेषता इसका सिनेमाई सौंदर्य नियंत्रण सिस्टम है, जो उपयोगकर्ताओं को विभिन्न दृश्य आयामों पर सटीक नियंत्रण रखने की सुविधा देता है। इस मॉडल को सावधानीपूर्वक तैयार किए गए सौंदर्य संबंधी डेटा पर प्रशिक्षित किया गया है, जिसमें प्रकाश व्यवस्था, संरचना, कंट्रास्ट, रंग, कैमरा कोण, छवि आकार, फोकल लंबाई और अन्य सिनेमाई मापदंडों के लिए विस्तृत लेबल शामिल हैं।.
यह कार्यक्षमता सिनेमाई शैली से प्रेरित एक प्रॉम्प्ट सिस्टम पर आधारित है जो प्रकाश, रोशनी, संरचना और रंग जैसे प्रमुख आयामों को वर्गीकृत करता है। इससे Wan2.2 निर्माण प्रक्रिया के दौरान उपयोगकर्ता के सौंदर्य संबंधी इरादों को सटीक रूप से समझकर उन्हें लागू कर पाता है, जिससे अनुकूलन योग्य सिनेमाई प्राथमिकताओं वाले वीडियो बनाना संभव हो पाता है।.
उन्नत प्रशिक्षण डेटा और जटिल गति निर्माण
अपने पूर्ववर्ती, Wan2.1 की तुलना में, प्रशिक्षण डेटासेट को काफी हद तक विस्तारित किया गया है: इसमें 65.6 प्रतिशत अधिक छवि डेटा और 83.2 प्रतिशत अधिक वीडियो डेटा शामिल है। डेटा में इस व्यापक विस्तार से मॉडल की सामान्यीकरण क्षमता में उल्लेखनीय सुधार होता है और गति, अर्थ और सौंदर्यशास्त्र जैसे विभिन्न आयामों में रचनात्मक विविधता बढ़ती है।.
यह मॉडल जटिल गतिविधियों को उत्पन्न करने में महत्वपूर्ण सुधार दर्शाता है, जिसमें सजीव चेहरे के भाव, गतिशील हाथ के इशारे और जटिल एथलेटिक गतिविधियां शामिल हैं। इसके अतिरिक्त, यह बेहतर कमांड पालन और भौतिक नियमों के अनुपालन के साथ यथार्थवादी प्रस्तुतियाँ प्रदान करता है, जिसके परिणामस्वरूप अधिक स्वाभाविक और विश्वसनीय वीडियो सीक्वेंस बनते हैं।.
कुशल हार्डवेयर उपयोग और सुलभता
Wan2.2 तीन अलग-अलग मॉडल वेरिएंट पेश करता है जो विभिन्न आवश्यकताओं और हार्डवेयर कॉन्फ़िगरेशन को पूरा करते हैं:
- Wan2.2-T2V-A14B: एक टेक्स्ट-टू-वीडियो मॉडल जिसमें 27 बिलियन पैरामीटर (14 बिलियन सक्रिय) हैं और जो 720p रिज़ॉल्यूशन और 16fps पर वीडियो उत्पन्न करता है।.
- Wan2.2-I2V-A14B: एक इमेज-टू-वीडियो मॉडल जिसमें स्थिर छवियों को वीडियो में परिवर्तित करने के लिए समान आर्किटेक्चर है।.
- Wan2.2-TI2V-5B: एक कॉम्पैक्ट 5 बिलियन पैरामीटर मॉडल जो टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो दोनों कार्यों को एक एकीकृत ढांचे में जोड़ता है।.
कॉम्पैक्ट TI2V-5B मॉडल एक महत्वपूर्ण उपलब्धि का प्रतिनिधित्व करता है, क्योंकि यह RTX 4090 जैसे सिंगल कंज्यूमर GPU पर 9 मिनट से भी कम समय में 5 सेकंड के 720p वीडियो बना सकता है। यह गति इसे उपलब्ध सबसे तेज़ 720p@24fps मॉडलों में से एक बनाती है, जिससे औद्योगिक अनुप्रयोगों और अकादमिक अनुसंधान दोनों को इस तकनीक से लाभ मिल सकता है।.
बेहतर संपीड़न के लिए उन्नत यूएई आर्किटेक्चर
TI2V-5B मॉडल एक अत्यंत कुशल 3D VAE आर्किटेक्चर पर आधारित है, जिसका संपीड़न अनुपात 4×16×16 है, जिससे समग्र सूचना संपीड़न दर 64 तक बढ़ जाती है। एक अतिरिक्त पैचिंग लेयर के साथ, TI2V-5B का समग्र संपीड़न अनुपात 4×32×32 तक भी पहुंच जाता है, जिससे न्यूनतम भंडारण आवश्यकताओं के साथ उच्च-गुणवत्ता वाले वीडियो पुनर्निर्माण को सुनिश्चित किया जा सकता है।.
यह उन्नत संपीड़न तकनीक मॉडल को एक ही एकीकृत ढांचे में टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो दोनों कार्यों का मूल रूप से समर्थन करने में सक्षम बनाती है, जिसमें अकादमिक अनुसंधान और व्यावहारिक अनुप्रयोग दोनों शामिल हैं।.
मानक प्रदर्शन और बाजार में स्थिति
Wan2.2 का परीक्षण Sora, KLING 2.0 और Hailuo 02 सहित प्रमुख व्यावसायिक AI वीडियो जनरेशन मॉडलों के मुकाबले नए Wan-Bench 2.0 मूल्यांकन सूट का उपयोग करके किया गया। परिणामों से पता चलता है कि Wan2.2 अधिकांश श्रेणियों में अत्याधुनिक प्रदर्शन हासिल करता है और अपने उच्च स्तरीय प्रतिस्पर्धियों से बेहतर प्रदर्शन करता है।.
सीधी रैंकिंग तुलना में, Wan2.2-T2V-A14B ने छह प्रमुख मापदंड आयामों में से चार में प्रथम स्थान प्राप्त किया, जिनमें सौंदर्य गुणवत्ता और गति गतिशीलता जैसे महत्वपूर्ण क्षेत्र शामिल हैं। यह उपलब्धि Wan2.2 को उच्च-रिज़ॉल्यूशन वीडियो निर्माण के क्षेत्र में ओपन-सोर्स बाज़ार का नया अग्रणी बनाती है।.
ओपन-सोर्स उपलब्धता और एकीकरण
Wan2.2 पूरी तरह से ओपन-सोर्स सॉफ्टवेयर के रूप में Apache 2.0 लाइसेंस के अंतर्गत उपलब्ध है और इसे Hugging Face, GitHub और ModelScope से डाउनलोड किया जा सकता है। इसके मॉडल पहले से ही ComfyUI और Diffusers जैसे लोकप्रिय फ्रेमवर्क में एकीकृत हैं, जिससे मौजूदा वर्कफ़्लो में इसका सहज उपयोग संभव हो पाता है।.
TI2V-5B मॉडल में रेडी-टू-यूज़ हगिंग फेस स्पेस की सुविधा है, जिससे उपयोगकर्ता बिना किसी जटिल इंस्टॉलेशन के तुरंत इस तकनीक को आज़मा सकते हैं। यह सुगमता अत्याधुनिक वीडियो जनरेशन तकनीक तक सभी की पहुंच को आसान बनाती है और डेवलपर समुदाय में नवाचार को बढ़ावा देती है।.
चीन का रणनीतिक एआई आक्रमण
वान 2.2 का विमोचन चीन की व्यापक ओपन-सोर्स एआई रणनीति का हिस्सा है, जिसने डीपसीक जैसे मॉडलों के साथ पहले ही अंतरराष्ट्रीय ध्यान आकर्षित किया है। यह रणनीति चीन की आधिकारिक डिजिटलीकरण योजना के अनुरूप है, जिसने 2018 से ओपन-सोर्स सहयोग को एक राष्ट्रीय संसाधन के रूप में बढ़ावा दिया है और एआई बुनियादी ढांचे में बड़े पैमाने पर सरकारी निवेश की परिकल्पना की है।.
अलीबाबा ने हगिंग फेस और मॉडलस्कोप पर अपने वैन मॉडल के 54 लाख से अधिक डाउनलोड दर्ज किए हैं, जो चीनी ओपन-सोर्स एआई समाधानों की मजबूत अंतरराष्ट्रीय मांग को दर्शाता है। कंपनी इस तेजी से बढ़ते बाजार में अपनी स्थिति मजबूत करने के लिए क्लाउड कंप्यूटिंग और एआई इंफ्रास्ट्रक्चर में लगभग 52 अरब डॉलर का और निवेश करने की योजना बना रही है।.
के लिए उपयुक्त:
Wan2.2 एआई वीडियो के क्षेत्र में एक क्रांतिकारी बदलाव लेकर आया है: पेशेवर स्तर पर ओपन सोर्स।
Wan2.2 एआई वीडियो निर्माण में एक महत्वपूर्ण मोड़ है, जो सशुल्क, मालिकाना हक वाले मॉडलों का पहला ओपन-सोर्स विकल्प प्रदान करता है और व्यावसायिक समाधानों से प्रतिस्पर्धा कर सकता है। सिनेमाई गुणवत्ता, कुशल हार्डवेयर उपयोग और पूर्णतः ओपन-सोर्स उपलब्धता का संयोजन इस मॉडल को दुनिया भर के कंटेंट क्रिएटर्स, फिल्म निर्माताओं और डेवलपर्स के लिए एक आकर्षक विकल्प बनाता है।.
इस रिलीज़ से एआई-आधारित वीडियो निर्माण के क्षेत्र में प्रतिस्पर्धा बढ़ने की संभावना है और इससे अन्य कंपनियों को भी इसी तरह की ओपन-सोर्स रणनीतियों को अपनाने के लिए प्रोत्साहन मिल सकता है। उपभोक्ता हार्डवेयर पर चलने और पेशेवर स्तर के परिणाम देने की क्षमता के साथ, Wan2.2 में वीडियो निर्माण को लोकतांत्रिक बनाने और रचनात्मकता की नई संभावनाओं को खोलने की क्षमता है।.
उन्नत प्रौद्योगिकी और खुली विकास नीति को मिलाकर, अलीबाबा वान 2.2 के साथ एआई वीडियो निर्माण में नए मानक स्थापित कर रहा है और चीन को वैश्विक एआई नवाचार में एक अग्रणी शक्ति के रूप में स्थापित कर रहा है। इस विकास के दूरगामी परिणाम आने वाले वर्षों में वीडियो निर्माण और उत्पादन के तरीके को मौलिक रूप से बदल देंगे।.
के लिए उपयुक्त:
आपका एआई परिवर्तन, एआई एकीकरण और एआई प्लेटफॉर्म उद्योग विशेषज्ञ
☑️ हमारी व्यावसायिक भाषा अंग्रेजी या जर्मन है
☑️ नया: आपकी राष्ट्रीय भाषा में पत्राचार!
मुझे निजी सलाहकार के रूप में आपकी और मेरी टीम की सेवा करने में खुशी होगी।
संपर्क फ़ॉर्म भरकर मुझसे संपर्क कर सकते हैं +49 89 89 674 804 (म्यूनिख) पर कॉल कर सकते हैं । मेरा ईमेल पता है: वोल्फेंस्टीन ∂ xpert.digital
मैं हमारी संयुक्त परियोजना की प्रतीक्षा कर रहा हूं।




