Gepubliceerd op: 30 juli 2025 / UPDATE VAN: 30 juli 2025 – Auteur: Konrad Wolfenstein
Het grote AI -offensief van China: met WAN 2.2 wil Alibaba het westen inhalen – en doet alle open source – afbeelding: xpert.digital
Dit is de nieuwe Wunder-Ki Wan2.2 van Alibaba: gratis, krachtiger dan de competitie en beschikbaar voor iedereen
China's video -reactie op Sora von OpenAai: deze nieuwe AI genereert video's in de bioscoopkwaliteit – en is ook gratis
Het Chinese technologiebedrijf Alibaba publiceerde op 29 juli 2025 een interessante nieuwe versie van zijn open source videomodel met WAN2.2 en veranderde zo fundamenteel het landschap van kunstmatige intelligentie voor videoproductie. Deze innovatieve technologie vertegenwoordigt 's werelds eerste open source video-videomodel dat een mix van de experts (MOE) architectuur heeft geïmplementeerd en is ontworpen voor zowel professionele filmproducties als voor gebruik op commercieel verkrijgbare hardware.
Geschikt hiervoor:
- Alibaba investeert meer dan $ 50 miljard in AI en Cloud Computing – Artificial General Intelligence (AGI) speelt een centrale rol
Technologische revolutie via MOE -architectuur
Voor het eerst introduceert WAN2.2 een architectuur van het mengsel van experts in video-devotionele modellen, wat een belangrijke technologische doorbraak is. Deze innovatieve architectuur werkt met een dubbel expertsysteem dat het videoogenisatieproces in twee gespecialiseerde fasen verdeelt. De eerste expert richt zich op de vroege fasen van de ruisonderdrukking en bepaalt de basislay -out van de scène, terwijl de tweede expert de latere fasen overneemt en details en texturen verfijnt.
Het systeem heeft in totaal 27 miljard parameters, maar activeert slechts 14 miljard parameters per inferentiestap, wat de computerinspanning tot 50 procent vermindert zonder de kwaliteit te beïnvloeden. Deze toename van de efficiëntie maakt het mogelijk om video's van hoge kwaliteit te genereren, terwijl de rekenkosten constant blijven en tegelijkertijd de totale modelcapaciteit wordt uitgebreid.
Film esthetiek en filmische controle
Een uitstekend kenmerk van WAN2.2 is het filmische esthetische besturingssysteem, waarmee gebruikers nauwkeurige controle kunnen uitvoeren over verschillende visuele dimensies. Het model werd getraind met zorgvuldig samengestelde esthetische gegevens die gedetailleerde labels bevatten voor verlichting, samenstelling, contrast, kleur, camerabeent, beeldgrootte, brandpuntsafstand en andere filmische parameters.
Deze functionaliteit is gebaseerd op een filmisch geïnspireerd promptsysteem dat sleuteldimensies zoals verlichting, verlichting, compositie en kleurcategorie categoriseert. Dientengevolge kan WAN2.2 de esthetische bedoelingen van de gebruikers tijdens het generatieproces nauwkeurig interpreteren en implementeren, waardoor video's met aanpasbare filmische voorkeuren mogelijk zijn.
Uitgebreide trainingsgegevens en het genereren van complexe beweging
In vergelijking met de voorganger WAN2.1 was de trainingsgegevensset aanzienlijk uitgebreid: 65,6 procent meer beeldgegevens en 83,2 procent meer videogegevens. Deze enorme gegevensuitbreiding verbetert de generalisatievaardigheden van het model aanzienlijk en verhoogt de creatieve diversiteit in verschillende dimensies, zoals beweging, semantiek en esthetiek.
Het model toont significante verbeteringen in de productie van complexe bewegingen, waaronder levendige gezichtsuitdrukkingen, dynamische handgebaren en gecompliceerde sportbewegingen. Bovendien biedt het realistische representaties met een verbeterde commando -compliance en naleving van fysieke wetten, wat leidt tot meer natuurlijke en overtuigende videosequenties.
Efficiënt hardwaregebruik en toegankelijkheid
WAN2.2 biedt drie verschillende modelvarianten die betrekking hebben op verschillende vereisten en hardwareconfiguraties:
- WAN2.2-T2V-A14B: een tekst-naar-video-model met 27 miljard parameters (14 miljard actief), die video's genereert met een resolutie van 720p en 16 fps.
- WAN2.2-I2V-A14B: een foto-tot-video-model met dezelfde architectuur voor de conversie van statische afbeeldingen in video's.
- WAN2.2-TI2V-5B: een compact parametermodel van 5 miljard dat zowel tekst-naar-video als beeld-naar-video-functies combineert in een uniform kader.
Het compacte TI2V-5B-model is een speciale doorbraak, omdat het 5 seconden 720p-video's kan genereren in minder dan 9 minuten op een enkele consumenten-GPU zoals de RTX 4090. Deze snelheid maakt het een van de snelste beschikbare 720p@24fps-modellen en stelt zowel industriële applicaties als academisch onderzoek in om te profiteren van technologie.
Geavanceerde VAE -architectuur voor geoptimaliseerde compressie
Het TI2V 5B-model is gebaseerd op een zeer efficiënte 3D VAE-architectuur met een compressieverhouding van 4 × 16 × 16, die de totale informatiecompressiesnelheid verhoogt tot 64. Met een extra patchificatielaag, de totale compressieverhouding van TI2V-5B bereikt zelfs 4 x 32 x 32, die hoogwaardige video-video-eisen van de minimale geheugenvereisten steekt.
Deze geavanceerde compressietechnologie stelt het model in staat om zowel tekst-naar-video- als beeld-tot-video-taken te ondersteunen in een enkel, uniform kader, dat zowel academisch onderzoek als praktische toepassingen behandelt.
Benchmarkprestaties en marktpositie
WAN2.2 werd getest tegen toonaangevende commerciële AI-videovideo-modellen met behulp van de nieuwe WAN-Bench 2.0-evaluatiesuite, waaronder Sora, Kling 2.0 en Hailuo 02. Uit de resultaten blijkt dat WAN2.2 geavanceerde prestaties in de meeste categorieën behaalt en de concurrenten op hoog niveau overschrijdt.
In de vergelijking van directe rangorde behaalde WAN2.2-T2V-A14B de eerste plaats in vier van de zes centrale benchmark-dimensies, inclusief esthetische kwaliteit en bewegingsdynamiek. Deze uitvoering vestigt WAN2.2 als een nieuwe open source marktleider in videoogenisatie met hoge resolutie.
Beschikbaarheid en integratie van open source
WAN2.2 is beschikbaar als een volledig open source software onder de Apache 2.0 -licentie en kan worden gedownload via Hugging Face, GitHub en ModelsCope. De modellen zijn al geïntegreerd in populaire kaders zoals Comfyui en diffusers, die naadloos gebruik in bestaande workflows mogelijk maken.
Knuffelen Face Space is beschikbaar voor direct gebruik voor het TI2V 5B -model, wat betekent dat gebruikers de technologie onmiddellijk kunnen uitproberen zonder complexe installaties uit te voeren. Deze toegankelijkheid democratiseert de toegang tot de staat -de -art videoogenisatietechnologie en bevordert innovatie in de hele ontwikkelaarsgemeenschap.
China's strategische AI -offensief
De publicatie van WAN2.2 maakt deel uit van een bredere Chinese open source AI -strategie die al internationale aandacht heeft getrokken met modellen als Deepseek. Deze strategie volgt op het officiële Chinese digitaliseringsplan, dat sinds 2018 een open source -samenwerking als nationale hulpbron bevordert en voorziet in massale investeringen in de staat in AI -infrastructuur.
Alibaba heeft al meer dan 5,4 miljoen downloads van zijn WAN -modellen opgenomen op het knuffelen van Face en ModelsCope, die de sterke internationale vraag naar Chinese open source AI -oplossingen onderstreept. Het bedrijf plant verdere investeringen van ongeveer $ 52 miljard aan cloud computing en AI -infrastructuur om zijn positie in deze snelgroeiende markt te consolideren.
Geschikt hiervoor:
WAN2.2 biedt een doorbraak op AI -video's: open source op professioneel niveau
WAN2.2 vertegenwoordigt een keerpunt in AI -videoogenisatie omdat het het eerste open source alternatief biedt dat moet worden betaald, eigen modellen die kunnen concurreren met commerciële oplossingen. De combinatie van filmische kwaliteit, efficiënt hardwaregebruik en complete open source beschikbaarheid positioneert het model als een aantrekkelijk alternatief voor contentfabrikanten, filmmakers en ontwikkelaars wereldwijd.
De publicatie zal waarschijnlijk de concurrentie op het gebied van AI -videoogenisatie intensiveren en kan ertoe leiden dat andere bedrijven vergelijkbare open source -strategieën nastreven. Met zijn vermogen om op consumentenhardware te lopen en professionele resultaten te leveren, heeft WAN2.2 het potentieel om videoproductie te democratiseren en nieuwe creatieve kansen te openen.
Door de combinatie van geavanceerde technologie met open ontwikkelingsfilosofie, stelt Alibaba met WAN2.2 nieuwe normen in AI -videoogenisatie en stelt China op als een leidende kracht in wereldwijde AI -innovatie. De verreikende effecten van deze ontwikkeling zullen de manier veranderen waarop video's de komende jaren worden gemaakt en geproduceerd.
Geschikt hiervoor:
Uw AI -transformatie, AI -integratie en AI Platform Industry Expert
☑️ onze zakelijke taal is Engels of Duits
☑️ Nieuw: correspondentie in uw nationale taal!
Ik ben blij dat ik beschikbaar ben voor jou en mijn team als een persoonlijk consultant.
U kunt contact met mij opnemen door het contactformulier hier in te vullen of u gewoon te bellen op +49 89 674 804 (München) . Mijn e -mailadres is: Wolfenstein ∂ Xpert.Digital
Ik kijk uit naar ons gezamenlijke project.