भाषा चयन 📢


चीन का बड़ा वीडियो की आक्रामक: WAN 2.2 अलीबाबा के साथ पश्चिम से आगे निकलना चाहता है – और सब कुछ खुला स्रोत करता है

पर प्रकाशित: 30 जुलाई, 2025 / अपडेट से: 30 जुलाई, 2025 – लेखक: कोनराड वोल्फेंस्टीन

चीन का बड़ा एआई आक्रामक: वान 2.2 के साथ अलीबाबा पश्चिम से आगे निकलना चाहता है – और सब कुछ खुला स्रोत करता है

चीन का बिग एआई आक्रामक: वान 2.2 के साथ अलीबाबा पश्चिम से आगे निकलना चाहता है – और सभी खुले स्रोत – छवि: Xpert.Digital करता है

यह अलीबाबा का नया Wunder-ki Wan2.2 है: मुफ़्त, प्रतियोगिता की तुलना में अधिक शक्तिशाली और सभी के लिए उपलब्ध है

सोरा वॉन ओपनाई के लिए चीन की वीडियो प्रतिक्रिया: यह नया एआई सिनेमा गुणवत्ता में वीडियो उत्पन्न करता है – और यह भी नि: शुल्क है

चीनी प्रौद्योगिकी कंपनी अलीबाबा ने 29 जुलाई, 2025 को WAN2.2 के साथ अपने ओपन सोर्स वीडियो मॉडल का एक दिलचस्प नया संस्करण प्रकाशित किया और इस प्रकार मौलिक रूप से वीडियो उत्पादन के लिए कृत्रिम बुद्धिमत्ता के परिदृश्य को बदल दिया। यह अभिनव तकनीक दुनिया के पहले ओपन सोर्स वीडियो वीडियो मॉडल का प्रतिनिधित्व करती है, जिसने एक मिश्रण-ऑफ-एक्सपेर्ट्स (एमओई) आर्किटेक्चर को लागू किया और दोनों पेशेवर फिल्म निर्माणों के लिए और व्यावसायिक रूप से उपलब्ध हार्डवेयर पर उपयोग के लिए डिज़ाइन किया गया था।

के लिए उपयुक्त:

एमओई वास्तुकला के माध्यम से तकनीकी क्रांति

पहली बार, WAN2.2 वीडियो भक्ति मॉडल में एक मिश्रण-के-विशेषज्ञ वास्तुकला का परिचय देता है, जो एक महत्वपूर्ण तकनीकी सफलता है। यह अभिनव आर्किटेक्चर एक दोहरी विशेषज्ञ प्रणाली के साथ काम करता है जो वीडियोोजेनाइजेशन प्रक्रिया को दो विशेष चरणों में विभाजित करता है। पहला विशेषज्ञ शोर दमन के शुरुआती चरणों पर ध्यान केंद्रित करता है और दृश्य के मूल लेआउट को निर्धारित करता है, जबकि दूसरा विशेषज्ञ बाद के चरणों पर कब्जा करता है और विवरण और बनावट को परिष्कृत करता है।

सिस्टम में कुल 27 बिलियन पैरामीटर हैं, लेकिन प्रति अनुमान कदम केवल 14 बिलियन मापदंडों को सक्रिय करता है, जो गुणवत्ता को प्रभावित किए बिना कंप्यूटिंग प्रयास को 50 प्रतिशत तक कम कर देता है। दक्षता में यह वृद्धि उच्च -गुणवत्ता वाले वीडियो को उत्पन्न करने में सक्षम बनाती है, जबकि कंप्यूटिंग लागत स्थिर रहती है और साथ ही समग्र मॉडल क्षमता का विस्तार किया जाता है।

फिल्म सौंदर्यशास्त्र और सिनेमाई नियंत्रण

WAN2.2 की एक उत्कृष्ट विशेषता सिनेमाई सौंदर्य नियंत्रण प्रणाली है, जो उपयोगकर्ताओं को विभिन्न दृश्य आयामों पर सटीक नियंत्रण करने में सक्षम बनाता है। मॉडल को सावधानीपूर्वक क्यूरेटेड सौंदर्य डेटा के साथ प्रशिक्षित किया गया था जिसमें प्रकाश, रचना, विपरीत, रंग, कैमरा हॉब, छवि आकार, फोकल लंबाई और अन्य सिनेमाई मापदंडों के लिए विस्तृत लेबल शामिल थे।

यह कार्यक्षमता एक सिनेमाई रूप से प्रेरित शीघ्र प्रणाली पर आधारित है जो प्रकाश, रोशनी, रचना और रंग जैसे प्रमुख आयामों को वर्गीकृत करती है। नतीजतन, WAN2.2 पीढ़ी प्रक्रिया के दौरान उपयोगकर्ताओं के सौंदर्य इरादों की सटीक व्याख्या और कार्यान्वयन कर सकता है, जो अनुकूलन योग्य सिनेमाई वरीयताओं के साथ वीडियो के निर्माण को सक्षम बनाता है।

विस्तारित प्रशिक्षण डेटा और जटिल आंदोलन उत्पादन

पूर्ववर्ती WAN2.1 की तुलना में, प्रशिक्षण डेटा सेट में काफी विस्तार किया गया था: 65.6 प्रतिशत अधिक छवि डेटा और 83.2 प्रतिशत अधिक वीडियो डेटा। यह बड़े पैमाने पर डेटा विस्तार मॉडल के सामान्यीकरण कौशल में काफी सुधार करता है और कई आयामों जैसे कि आंदोलन, शब्दार्थ और सौंदर्यशास्त्र में रचनात्मक विविधता को बढ़ाता है।

मॉडल जटिल आंदोलनों के उत्पादन में महत्वपूर्ण सुधार दिखाता है, जिसमें जीवंत चेहरे के भाव, गतिशील हाथ के इशारे और जटिल खेल आंदोलनों शामिल हैं। इसके अलावा, यह बेहतर कमांड अनुपालन और भौतिक कानूनों के अनुपालन के साथ यथार्थवादी प्रतिनिधित्व प्रदान करता है, जो अधिक प्राकृतिक और आश्वस्त वीडियो दृश्यों की ओर जाता है।

कुशल हार्डवेयर उपयोग और पहुंच

WAN2.2 तीन अलग -अलग मॉडल वेरिएंट प्रदान करता है जो विभिन्न आवश्यकताओं और हार्डवेयर कॉन्फ़िगरेशन को कवर करता है:

  • WAN2.2-T2V-A14B: 27 बिलियन मापदंडों (14 बिलियन सक्रिय) के साथ एक टेक्स्ट-टू-वीडियो मॉडल, जो 720p रिज़ॉल्यूशन और 16FPS के साथ वीडियो उत्पन्न करता है।
  • WAN2.2-I2V-A14B: वीडियो में स्थिर छवियों के रूपांतरण के लिए एक ही वास्तुकला के साथ एक चित्र-से-वीडियो मॉडल।
  • WAN2.2-TI2V-5B: एक कॉम्पैक्ट 5 बिलियन पैरामीटर मॉडल जो एक समान रूपरेखा में टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो फ़ंक्शन दोनों को जोड़ती है।

कॉम्पैक्ट TI2V-5B मॉडल एक विशेष सफलता है, क्योंकि यह RTX 4090 जैसे एकल उपभोक्ता GPU पर 9 मिनट से कम समय में 5 सेकंड 720p वीडियो उत्पन्न कर सकता है। यह गति इसे सबसे तेजी से उपलब्ध 720p@24FPS मॉडल में से एक बनाती है और दोनों औद्योगिक अनुप्रयोगों और शैक्षणिक अनुसंधान को तकनीक से लाभान्वित करती है।

अनुकूलित संपीड़न के लिए उन्नत वीएई वास्तुकला

TI2V 5B मॉडल 4 × 16 × 16 के संपीड़न अनुपात के साथ एक अत्यधिक कुशल 3D VAE आर्किटेक्चर पर आधारित है, जो कुल सूचना संपीड़न दर को बढ़ाता है 64 तक। एक अतिरिक्त पैचिफिकेशन परत के साथ, TI2V-5B का कुल संपीड़न अनुपात भी 4 × 32 × 32 तक पहुंचता है, जो न्यूनतम स्मृति आवश्यकताओं के साथ उच्च-क्विलिटी वीडियो रिकॉनस्ट्रक्शन को सुनिश्चित करता है।

यह उन्नत संपीड़न तकनीक मॉडल को एक एकल, एक समान रूपरेखा में पाठ-से-वीडियो और छवि-से-वीडियो कार्यों दोनों का समर्थन करने में सक्षम बनाती है, जो शैक्षणिक अनुसंधान और व्यावहारिक दोनों अनुप्रयोगों को कवर करती है।

बेंचमार्क प्रदर्शन और बाजार की स्थिति

WAN2.2 को SORA, KLING 2.0 और Hailuo 02 सहित नए WAN-BENCH 2.0 मूल्यांकन सूट की मदद से प्रमुख वाणिज्यिक AI वीडियो वीडियो मॉडल के खिलाफ परीक्षण किया गया था। परिणाम बताते हैं कि Wan2.2 श्रेणियों के बहुमत में अत्याधुनिक प्रदर्शन प्राप्त करता है और इसके उच्च स्तरीय प्रतिस्पर्धियों को पार करता है।

प्रत्यक्ष रैंकिंग तुलना में, WAN2.2-T2V-A14B ने छह केंद्रीय बेंचमार्क आयामों में से चार में पहला स्थान हासिल किया, जिसमें सौंदर्य गुणवत्ता और गति की गतिशीलता शामिल हैं। यह प्रदर्शन Wan2.2 को उच्च-रिज़ॉल्यूशन वाले वीडियोोजेनाइजेशन में एक नए ओपन सोर्स मार्केट लीडर के रूप में स्थापित करता है।

खुला स्रोत उपलब्धता और एकीकरण

WAN2.2 Apache 2.0 लाइसेंस के तहत एक पूरी तरह से खुले स्रोत सॉफ्टवेयर के रूप में उपलब्ध है और इसे हगिंग फेस, GitHub और Modelscope के माध्यम से डाउनलोड किया जा सकता है। मॉडल को पहले से ही Comfyui और डिफ्यूज़र जैसे लोकप्रिय ढांचे में एकीकृत किया गया है, जो मौजूदा वर्कफ़्लोज़ में सहज उपयोग को सक्षम बनाता है।

TI2V 5B मॉडल के लिए प्रत्यक्ष उपयोग के लिए हगिंग फेस स्पेस उपलब्ध है, जिसका अर्थ है कि उपयोगकर्ता जटिल प्रतिष्ठानों को अंजाम देने के बिना तुरंत तकनीक को आज़मा सकते हैं। यह एक्सेसिबिलिटी स्टेट -ऑफ -द -आर्ट वीडियोोजेनाइजेशन तकनीक तक पहुंच का लोकतंत्रीकरण करती है और पूरे डेवलपर समुदाय में नवाचार को बढ़ावा देती है।

चीन का रणनीतिक एआई आक्रामक

WAN2.2 का प्रकाशन एक व्यापक चीनी ओपन सोर्स एआई रणनीति का हिस्सा है जिसने पहले से ही दीपसेक जैसे मॉडल के साथ अंतरराष्ट्रीय ध्यान आकर्षित किया है। यह रणनीति आधिकारिक चीनी डिजिटलीकरण योजना का अनुसरण करती है, जो 2018 से एक राष्ट्रीय संसाधन के रूप में खुले स्रोत सहयोग को बढ़ावा दे रही है और एआई बुनियादी ढांचे में बड़े पैमाने पर राज्य निवेश प्रदान करती है।

अलीबाबा ने पहले ही अपने WAN मॉडल के 5.4 मिलियन से अधिक डाउनलोड को हगिंग फेस और मॉडलकॉप पर रिकॉर्ड किया है, जो चीनी ओपन सोर्स एआई सॉल्यूशंस के लिए मजबूत अंतरराष्ट्रीय मांग को रेखांकित करता है। कंपनी इस तेजी से बढ़ते बाजार में अपनी स्थिति को मजबूत करने के लिए क्लाउड कंप्यूटिंग और एआई बुनियादी ढांचे में लगभग 52 बिलियन डॉलर के निवेश की योजना बना रही है।

के लिए उपयुक्त:

Wan2.2 AI वीडियो पर एक सफलता प्रदान करता है: एक पेशेवर स्तर पर खुला स्रोत

WAN2.2 AI वीडियोोजेनाइजेशन में एक मोड़ बिंदु का प्रतिनिधित्व करता है क्योंकि यह भुगतान किए जाने वाले पहले ओपन सोर्स विकल्प, मालिकाना मॉडल जो वाणिज्यिक समाधानों के साथ प्रतिस्पर्धा कर सकते हैं। सिनेमाई गुणवत्ता, कुशल हार्डवेयर उपयोग और पूर्ण खुले स्रोत उपलब्धता का संयोजन दुनिया भर में सामग्री निर्माताओं, फिल्म निर्माताओं और डेवलपर्स के लिए एक आकर्षक विकल्प के रूप में मॉडल को दर्शाता है।

प्रकाशन एआई वीडियोोजेनाइजेशन के क्षेत्र में प्रतिस्पर्धा को तेज करने की संभावना है और अन्य कंपनियों को इसी तरह के खुले स्रोत रणनीतियों को आगे बढ़ाने का कारण बन सकता है। उपभोक्ता हार्डवेयर पर चलने और पेशेवर परिणाम देने की अपनी क्षमता के साथ, WAN2.2 में वीडियो उत्पादन का लोकतंत्रीकरण करने और नए रचनात्मक अवसरों को खोलने की क्षमता है।

खुले विकासात्मक दर्शन के साथ उन्नत प्रौद्योगिकी के संयोजन के माध्यम से, WAN2.2 के साथ अलीबाबा एआई वीडियोोजेनाइजेशन में नए मानकों को निर्धारित करता है और चीन को वैश्विक एआई नवाचार में एक अग्रणी बल के रूप में स्थापित करता है। इस विकास के दूर -दूर के प्रभाव आने वाले वर्षों में वीडियो बनाए और उत्पादित होने के तरीके को बदल देंगे।

के लिए उपयुक्त:

 

आपका एआई परिवर्तन, एआई एकीकरण और एआई प्लेटफॉर्म उद्योग विशेषज्ञ

☑️ हमारी व्यावसायिक भाषा अंग्रेजी या जर्मन है

☑️ नया: आपकी राष्ट्रीय भाषा में पत्राचार!

 

डिजिटल पायनियर – कोनराड वोल्फेंस्टीन

कोनराड वोल्फेंस्टीन

मुझे निजी सलाहकार के रूप में आपकी और मेरी टीम की सेवा करने में खुशी होगी।

संपर्क फ़ॉर्म भरकर मुझसे संपर्क कर सकते हैं +49 89 89 674 804 (म्यूनिख) पर कॉल कर सकते हैं । मेरा ईमेल पता है: वोल्फेंस्टीन xpert.digital

मैं हमारी संयुक्त परियोजना की प्रतीक्षा कर रहा हूं।

 

 

☑️ रणनीति, परामर्श, योजना और कार्यान्वयन में एसएमई का समर्थन

Ai एआई रणनीति का निर्माण या पुन: प्रवर्तन

☑️ पायनियर बिजनेस डेवलपमेंट


आर्टिफिशियल इंटेलिजेंस (KI) ब्लॉग, हॉटस्पॉट और कंटेंट हबxpaper