Gepubliseer op: 30 Julie 2025 / Update van: 30 Julie 2025 – Skrywer: Konrad Wolfenstein
China se groot AI -offensief: met WAN 2.2 Alibaba wil die Weste inhaal – en doen al die open source – Beeld: Xpert.digital
Dit is die nuwe Wunder-Ki Wan2.2 van Alibaba: gratis, kragtiger as die kompetisie en beskikbaar vir almal
China se video -reaksie op Sora von Openaai: Hierdie nuwe AI genereer video's in die teatergehalte – en is ook gratis
Die Chinese tegnologiemaatskappy Alibaba het op 29 Julie 2025 'n interessante weergawe van sy open source -videomodel gepubliseer met WAN2.2 en sodoende die landskap van kunsmatige intelligensie vir videoproduksie fundamenteel verander. Hierdie innoverende tegnologie verteenwoordig die wêreld se eerste open source-video-videomodel wat 'n argitektuur vir mengsels van die Experts (MOE) geïmplementeer het en ontwerp is vir professionele filmproduksies en vir gebruik op kommersieel beskikbare hardeware.
Geskik vir:
- Alibaba belê meer as $ 50 miljard in AI en Cloud Computing – Kunsmatige Algemene Intelligensie (AGI) speel 'n sentrale rol
Tegnologiese rewolusie deur Moe -argitektuur
Vir die eerste keer stel WAN2.2 'n mengsel-van-kundiges-argitektuur in video-toewydingmodelle bekend, wat 'n belangrike tegnologiese deurbraak is. Hierdie innoverende argitektuur werk met 'n dubbele kundige stelsel wat die videoogeniseringsproses in twee gespesialiseerde fases verdeel. Die eerste kundige fokus op die vroeë fases van die geraasonderdrukking en bepaal die basiese uitleg van die toneel, terwyl die tweede kundige die latere fases oorneem en besonderhede en teksture verfyn.
Die stelsel het altesaam 27 miljard parameters, maar aktiveer slegs 14 miljard parameters per inferensie -stap, wat die rekenaarpoging met tot 50 persent verminder sonder om die kwaliteit te beïnvloed. Hierdie toename in doeltreffendheid stel video's met hoë gehalte in staat om te genereer, terwyl die rekenaarkoste konstant bly en terselfdertyd die totale modelvermoë uitgebrei word.
Film estetika en filmiese beheer
'N Uitstaande kenmerk van WAN2.2 is die filmiese estetiese beheerstelsel, wat gebruikers in staat stel om presiese beheer oor verskillende visuele dimensies uit te voer. Die model is opgelei met noukeurig saamgestelde estetiese gegewens wat gedetailleerde etikette bevat vir beligting, samestelling, kontras, kleur, kamera -kookplaat, beeldgrootte, brandpuntlengte en ander filmparameters.
Hierdie funksionaliteit is gebaseer op 'n filmkundig geïnspireerde vinnige stelsel wat sleutelafmetings soos beligting, verligting, samestelling en kleur kategoriseer. As gevolg hiervan, kan WAN2.2 die estetiese voornemens van die gebruikers presies interpreteer en implementeer tydens die generasieproses, wat die skepping van video's met aanpasbare filmvoorkeure moontlik maak.
Uitgebreide opleidingsdata en komplekse bewegingsgenerering
In vergelyking met die voorganger WAN2.1, is die opleidingsdatastel aansienlik uitgebrei: 65,6 persent meer beelddata en 83,2 persent meer videodata. Hierdie massiewe data -uitbreiding verbeter die veralgemeningsvaardighede van die model aansienlik en verhoog die kreatiewe diversiteit in verskillende dimensies soos beweging, semantiek en estetika.
Die model toon beduidende verbeterings in die produksie van komplekse bewegings, insluitend lewendige gesigsuitdrukkings, dinamiese handgebare en ingewikkelde sportbewegings. Daarbenewens bied dit realistiese voorstellings met 'n verbeterde nakoming van die opdrag en nakoming van fisiese wette, wat lei tot meer natuurlike en oortuigende videosekwensies.
Doeltreffende gebruik en toeganklikheid van hardeware
WAN2.2 bied drie verskillende modelvariante aan wat verskillende vereistes en hardeware -konfigurasies dek:
- WAN2.2-T2V-A14B: 'n teks-tot-video-model met 27 miljard parameters (14 miljard aktief), wat video's met 720p-resolusie en 16FPS genereer.
- WAN2.2-I2V-A14B: 'n prentjie-tot-video-model met dieselfde argitektuur vir die omskakeling van statiese beelde in video's.
- WAN2.2-TI2V-5B: 'n kompakte 5 miljard-parametermodel wat beide teks-tot-video- en beeld-tot-video-funksies in 'n eenvormige raamwerk kombineer.
Die kompakte TI2V-5B-model is 'n spesiale deurbraak, aangesien dit 5 sekondes 720p-video's in minder as 9 minute op 'n enkele GPU van die verbruiker kan genereer, soos die RTX 4090. Hierdie snelheid maak dit een van die vinnigste beskikbare 720p@24fps-modelle en stel beide industriële toepassings en akademiese navorsing in staat om voordeel te trek uit tegnologie.
Gevorderde VAE -argitektuur vir geoptimaliseerde kompressie
Die TI2V 5B-model is gebaseer op 'n hoogs doeltreffende 3D VAE-argitektuur met 'n kompressieverhouding van 4 × 16 × 16, wat die totale inligtingskompressiesnelheid verhoog tot 64. Met 'n addisionele pathification-laag, bereik die totale kompressieverhouding van TI2V-5B selfs 4 × 32 × 32, wat 'n hoë-kwaliteit videobehaling met minimale geheuevereistes verseker.
Hierdie gevorderde kompressietegnologie stel die model in staat om beide teks-tot-video- en beeld-tot-video-take in 'n enkele, eenvormige raamwerk te ondersteun, wat akademiese navorsing en praktiese toepassings dek.
Maatstafprestasie en markposisie
WAN2.2 is getoets teen die toonaangewende kommersiële AI-videomodelle met behulp van die nuwe WAN-Bench 2.0-evalueringsuite, insluitend Sora, Kling 2.0 en Hailuo 02. Die resultate toon dat WAN2.2 die moderne prestasie in die meerderheid van die kategorieë behaal en die mededingers van die hoë vlakke oortref.
In direkte rangorde-vergelyking het WAN2.2-T2V-A14B die eerste plek in vier van die ses sentrale maatstafafmetings verseker, insluitend estetiese kwaliteit en bewegingsdinamika. Hierdie prestasie vestig WAN2.2 as 'n nuwe open source markleier in videogenisering met 'n hoë resolusie.
Open source beskikbaarheid en integrasie
WAN2.2 is beskikbaar as 'n volledig open source sagteware onder die Apache 2.0 -lisensie en kan afgelaai word via Hugging Face, GitHub en ModelleScope. Die modelle is reeds geïntegreer in gewilde raamwerke soos Comfyui en Diffusers, wat naatlose gebruik in bestaande werkstrome moontlik maak.
Hugging Face Space is beskikbaar vir direkte gebruik vir die TI2V 5B -model, wat beteken dat gebruikers onmiddellik die tegnologie kan uitprobeer sonder om ingewikkelde installasies uit te voer. Hierdie toeganklikheid demokratiseer toegang tot staat -van -die -art -videogeniseringstegnologie en bevorder innovasie in die hele ontwikkelaargemeenskap.
China se strategiese AI -offensief
Die publikasie van WAN2.2 is deel van 'n groter Chinese open source AI -strategie wat al internasionale aandag getrek het met modelle soos Deepseek. Hierdie strategie volg op die amptelike Chinese digitaliseringsplan, wat sedert 2018 open source samewerking as 'n nasionale hulpbron bevorder en voorsiening maak vir massiewe staatsbeleggings in AI -infrastruktuur.
Alibaba het reeds meer as 5,4 miljoen downloads van sy WAN -modelle op die omhelsing van die gesig en modelscope aangeteken, wat 'n sterk internasionale vraag na Chinese open source AI -oplossings onderstreep. Die maatskappy beplan verdere beleggings van ongeveer $ 52 miljard aan wolkrekenaarkunde en AI -infrastruktuur om sy posisie in hierdie vinnig groeiende mark te konsolideer.
Geskik vir:
WAN2.2 bied 'n deurbraak op AI -video's: open source op 'n professionele vlak
WAN2.2 verteenwoordig 'n keerpunt in AI -videogenisering omdat dit die eerste open source -alternatief bied wat betaal moet word, eie modelle wat met kommersiële oplossings kan meeding. Die kombinasie van filmkwaliteit, doeltreffende gebruik van hardeware en volledige open source beskikbaarheid posisioneer die model as 'n aantreklike alternatief vir inhoudvervaardigers, filmmakers en ontwikkelaars wêreldwyd.
Die publikasie sal waarskynlik die kompetisie op die gebied van AI -videogenisering versterk en kan veroorsaak dat ander ondernemings soortgelyke open source -strategieë volg. Met die vermoë om op verbruikershardeware te werk en professionele resultate te lewer, het WAN2.2 die potensiaal om videoproduksie te demokratiseer en nuwe kreatiewe geleenthede oop te maak.
Deur die kombinasie van gevorderde tegnologie met 'n oop ontwikkelingsfilosofie stel Alibaba met WAN2.2 nuwe standaarde in AI -videogenisering en vestig China as 'n leidende krag in wêreldwye AI -innovasie. Die verre effekte van hierdie ontwikkeling sal die manier waarop video's in die komende jare geskep en geproduseer word, verander.
Geskik vir:
U AI -transformasie, AI -integrasie en AI -platformbedryfskenner
☑️ Ons besigheidstaal is Engels of Duits
☑️ NUUT: Korrespondensie in jou landstaal!
Ek sal graag jou en my span as 'n persoonlike adviseur dien.
Jy kan my kontak deur die kontakvorm hier in te vul of bel my eenvoudig by +49 89 89 674 804 (München) . My e-posadres is: wolfenstein ∂ xpert.digital
Ek sien uit na ons gesamentlike projek.