Röstval 📢


Kinas Big Video Ki -offensiv: Med WAN 2.2 vill Alibaba över väst – och gör allt öppen källkod

Publicerad: 30 juli 2025 / UPDATE Från: 30 juli 2025 – Författare: Konrad Wolfenstein

Kinas Big AI -offensiv: Med WAN 2.2 vill Alibaba ta över väst – och gör allt öppen källkod

Kinas Big AI -offensiv: Med WAN 2.2 vill Alibaba ta över väst – och gör all öppen källkod – Bild: Xpert.Digital

Detta är Alibabas nya Wunder-Ki Wan2.2: Gratis, kraftfullare än tävlingen och tillgänglig för alla

Kinas videosvar på Sora von OpenAAI: Denna nya AI genererar videor i biokvalitet – och är också gratis

Det kinesiska teknikföretaget Alibaba publicerade en intressant ny version av sin open source -videododell den 29 juli 2025 med WAN2.2 och ändrade därmed grundläggande landskapet med artificiell intelligens för videoproduktion. Denna innovativa teknik representerar världens första öppen källkodsvideomodell som implementerade en blandning av experter (MOE) arkitektur och designades för både professionella filmproduktioner och för användning på kommersiellt tillgänglig hårdvara.

Lämplig för detta:

Teknologisk revolution genom MOE -arkitektur

För första gången introducerar WAN2.2 en arkitektur för blandning av experter i videodedvivelmodeller, vilket är ett betydande tekniskt genombrott. Denna innovativa arkitektur fungerar med ett dubbelt expertsystem som delar upp videogoniseringsprocessen i två specialiserade faser. Den första experten fokuserar på de tidiga faserna av brusundertryckningen och bestämmer scenens grundläggande layout, medan den andra experten tar över de senare faserna och förädlar detaljer och strukturer.

Systemet har totalt 27 miljarder parametrar, men aktiverar endast 14 miljarder parametrar per inferenssteg, vilket minskar datorinsatsen med upp till 50 procent utan att påverka kvaliteten. Denna ökning av effektiviteten gör det möjligt att generera högkvalitativa, medan datorkostnaderna förblir konstant och samtidigt utvidgas den totala modellkapaciteten.

Filmestetik och filmkontroll

Ett enastående inslag i WAN2.2 är det filmiska estetiska kontrollsystemet, som gör det möjligt för användare att utföra exakt kontroll över olika visuella dimensioner. Modellen tränades med noggrant kuraterade estetiska data som innehåller detaljerade etiketter för belysning, komposition, kontrast, färg, kamerahäll, bildstorlek, brännvidd och andra filmparametrar.

Denna funktionalitet är baserad på ett filmiskt inspirerat snabbsystem som kategoriserar viktiga dimensioner som belysning, belysning, komposition och färgning. Som ett resultat kan WAN2.2 exakt tolka och implementera användarnas estetiska avsikter under generationsprocessen, vilket möjliggör skapandet av videor med anpassningsbara filmiska preferenser.

Utökad träningsdata och komplex rörelsegenerering

Jämfört med föregångaren WAN2.1 utvidgades träningsdatauppsättningen avsevärt: 65,6 procent mer bilddata och 83,2 procent mer videodata. Denna massiva datautvidgning förbättrar modellens generaliseringsförmåga avsevärt och ökar den kreativa mångfalden i flera dimensioner som rörelse, semantik och estetik.

Modellen visar betydande förbättringar i produktionen av komplexa rörelser, inklusive livliga ansiktsuttryck, dynamiska handgester och komplicerade idrottsrörelser. Dessutom ger det realistiska representationer med förbättrad kommandoöverensstämmelse och efterlevnad av fysiska lagar, vilket leder till mer naturliga och övertygande videosekvenser.

Effektiv användning och tillgänglighet

WAN2.2 erbjuder tre olika modellvarianter som täcker olika krav och hårdvarukonfigurationer:

  • WAN2.2-T2V-A14B: En text-till-video-modell med 27 miljarder parametrar (14 miljarder aktiva), vilket genererar videor med 720p upplösning och 16fps.
  • WAN2.2-I2V-A14B: En bild-till-video-modell med samma arkitektur för omvandling av statiska bilder till videor.
  • WAN2.2-TI2V-5B: En kompakt 5 miljarder parametermodell som kombinerar både text-till-video och bild-till-video-funktioner i en enhetlig ram.

Den kompakta TI2V-5B-modellen är ett speciellt genombrott, eftersom den kan generera 5 sekunder 720p-videor på mindre än 9 minuter på en enda konsument GPU som RTX 4090. Denna hastighet gör det till en av de snabbaste tillgängliga 720p@24FPS-modellerna och möjliggör både industriella applikationer och akademiska forskning för att dra nytta av teknik.

Avancerad VAE -arkitektur för optimerad komprimering

TI2V 5B-modellen är baserad på en mycket effektiv 3D-VAE-arkitektur med ett kompressionsförhållande på 4 × 16 × 16, vilket ökar den totala informationskompressionshastigheten till 64. Med ett ytterligare patchificeringsskikt, det totala kompressionsförhållandet av TI2V-5b når till och med 4 × 32 × 32, vilket säkerställer högkvalitativa videokonstrektering med minimalminnet.

Denna avancerade kompressionsteknologi gör det möjligt för modellen att stödja både text-till-video- och bild-till-video-uppgifter i en enda, enhetlig ram, som täcker både akademisk forskning och praktiska tillämpningar.

Riktmärkesprestanda och marknadsposition

WAN2.2 testades mot ledande kommersiella AI-videomodeller med hjälp av den nya WAN-Bench 2.0-utvärderingssviten, inklusive Sora, Kling 2.0 och Hailuo 02. Resultaten visar att WAN2.2 uppnår modernaste prestanda i majoriteten av kategorierna och överskrider sina konkurrenter med hög nivå.

I direkt ranking jämförelse säkrade WAN2.2-T2V-A14B första plats i fyra av de sex centrala riktmärkesdimensionerna, inklusive estetisk kvalitet och rörelsedynamik. Denna prestation etablerar WAN2.2 som en ny marknadsledare för öppen källkod inom högupplösta videogonisering.

Open Source -tillgänglighet och integration

WAN2.2 är tillgänglig som en helt öppen källkodsprogramvara under Apache 2.0 -licensen och kan laddas ner via kramande ansikte, GitHub och ModelScope. Modellerna har redan integrerats i populära ramar som Comfyui och diffusorer, vilket möjliggör sömlös användning i befintliga arbetsflöden.

Kramning av ansiktsutrymme är tillgängligt för direkt användning för TI2V 5B -modellen, vilket innebär att användare kan prova tekniken omedelbart utan att behöva utföra komplexa installationer. Denna tillgänglighet demokratiserar tillgången till staten -av -art -videogoniseringstekniken och främjar innovation i hela utvecklargemenskapen.

Kinas strategiska AI -offensiv

Publiceringen av WAN2.2 är en del av en bredare kinesisk öppen källkod AI -strategi som redan har väckt internationell uppmärksamhet med modeller som Deepseek. Denna strategi följer den officiella kinesiska digitaliseringsplanen, som har främjat open source -samarbete som en nationell resurs sedan 2018 och tillhandahåller massiva statliga investeringar i AI -infrastruktur.

Alibaba har redan registrerat över 5,4 miljoner nedladdningar av sina WAN -modeller på att krama Face och Modelscope, som understryker en stark internationell efterfrågan på kinesiska Open Source AI -lösningar. Företaget planerar ytterligare investeringar på cirka 52 miljarder dollar i molnberäkning och AI -infrastruktur för att konsolidera sin position på denna snabbt växande marknad.

Lämplig för detta:

WAN2.2 ger ett genombrott på AI -videor: öppen källkod på professionell nivå

WAN2.2 representerar en vändpunkt i AI -videogonisering eftersom den erbjuder det första open source -alternativet som ska betalas, egna modeller som kan konkurrera med kommersiella lösningar. Kombinationen av filmkvalitet, effektiv användning av hårdvara och fullständig tillgänglighet av öppen källkodspositioner som ett attraktivt alternativ för innehållstillverkare, filmskapare och utvecklare över hela världen.

Publikationen kommer sannolikt att intensifiera konkurrensen inom området AI -videogonisering och kan få andra företag att bedriva liknande open source -strategier. Med sin förmåga att köra på konsumenthårdvara och leverera professionella resultat har WAN2.2 potentialen att demokratisera videoproduktion och öppna upp nya kreativa möjligheter.

Genom kombinationen av avancerad teknik med öppen utvecklingsfilosofi sätter Alibaba med WAN2.2 nya standarder i AI -videogonisering och etablerar Kina som en ledande kraft inom global AI -innovation. De långtgående effekterna av denna utveckling kommer att förändra hur videor skapas och produceras under de kommande åren.

Lämplig för detta:

 

Din AI -omvandling, AI -integration och AI -plattformsindustrin Expert

☑ Vårt affärsspråk är engelska eller tyska

☑ Nytt: korrespondens på ditt nationella språk!

 

Digital Pioneer – Konrad Wolfenstein

Konrad Wolfenstein

Jag är glad att vara tillgänglig för dig och mitt team som personlig konsult.

Du kan kontakta mig genom att fylla i kontaktformuläret eller helt enkelt ringa mig på +49 89 674 804 (München) . Min e -postadress är: Wolfenstein xpert.digital

Jag ser fram emot vårt gemensamma projekt.

 

 

☑ SME -stöd i strategi, rådgivning, planering och implementering

☑ Skapande eller omjustering av AI -strategin

☑ Pioneer Business Development


Artificial Intelligence (KI) -blogg, hotspot och innehållsnavXpaper