Kinas massive video-AI-offensiv 🤖🚀 Med Wan 2.2 sigter Alibaba mod at overhale Vesten 🌏🔓 og gør alt open source

Udgivet den: 30. juli 2025 / Opdateret den: 30. juli 2025 – Forfatter: Konrad Wolfenstein

Kinas store AI-offensiv: Med Wan 2.2 sigter Alibaba mod at overhale Vesten – og gør alt open source – Billede: Xpert.Digital

Dette er Alibabas nye vidunder AI Wan2.2: Gratis, mere kraftfuld end konkurrenterne og tilgængelig for alle

Kinas videosvar på OpenAIs Sora: Denne nye AI genererer videoer i biografkvalitet – og den er gratis

Den 29. juli 2025 udgav den kinesiske teknologivirksomhed Alibaba Wan2.2, en spændende ny version af deres open source-videogenereringsmodel, der fundamentalt ændrer landskabet for kunstig intelligens til videoproduktion. Denne innovative teknologi repræsenterer verdens første open source-videogenereringsmodel, der implementerer en Mixture-of-Experts (MoE)-arkitektur, designet til både professionel filmproduktion og brug på standardhardware.

Relateret til dette:

Alibaba investerer over 50 milliarder amerikanske dollars i AI og cloud computing – Kunstig generel intelligens (AGI) spiller en central rolle

Teknologisk revolution gennem MoE-arkitektur

Wan2.2 introducerer for første gang en blanding af eksperter til videodiffusionsmodeller, hvilket repræsenterer et betydeligt teknologisk gennembrud. Denne innovative arkitektur anvender et dobbelt ekspertsystem, der opdeler videogenereringsprocessen i to specialiserede faser. Den første ekspert fokuserer på de tidlige stadier af støjreduktion og bestemmer det grundlæggende scenelayout, mens den anden ekspert håndterer de senere stadier og forfiner detaljer og teksturer.

Systemet har i alt 27 milliarder parametre, men aktiverer kun 14 milliarder parametre pr. inferenstrin, hvilket reducerer beregningsindsatsen med op til 50 procent uden at gå på kompromis med kvaliteten. Denne øgede effektivitet gør det muligt at generere videoer i høj kvalitet, samtidig med at beregningsomkostningerne holdes konstante og den samlede modelkapacitet udvides.

Filmæstetik og filmisk kontrol

Et bemærkelsesværdigt træk ved Wan2.2 er dets filmiske æstetiske kontrolsystem, som giver brugerne mulighed for at udøve præcis kontrol over forskellige visuelle dimensioner. Modellen blev trænet på omhyggeligt kuraterede æstetiske data, herunder detaljerede betegnelser for belysning, komposition, kontrast, farvetone, kameravinkel, billedstørrelse, brændvidde og andre filmiske parametre.

Denne funktionalitet er baseret på et filmisk inspireret promptsystem, der kategoriserer nøgledimensioner såsom belysning, oplysning, komposition og farve. Dette gør det muligt for Wan2.2 præcist at fortolke og implementere brugerens æstetiske intentioner under genereringsprocessen, hvilket muliggør oprettelse af videoer med brugerdefinerede filmiske præferencer.

Avancerede træningsdata og generering af kompleks bevægelse

Sammenlignet med sin forgænger, Wan2.1, er træningsdatasættet blevet betydeligt udvidet: 65,6 procent flere billeddata og 83,2 procent flere videodata. Denne massive dataudvidelse forbedrer modellens generaliseringsmuligheder betydeligt og øger den kreative mangfoldighed på tværs af flere dimensioner såsom bevægelse, semantik og æstetik.

Modellen viser betydelige forbedringer i generering af komplekse bevægelser, herunder naturtro ansigtsudtryk, dynamiske håndbevægelser og indviklede atletiske bevægelser. Derudover leverer den realistiske gengivelser med forbedret kommandolydighed og overholdelse af fysiske love, hvilket resulterer i mere naturlige og overbevisende videosekvenser.

Effektiv hardwareudnyttelse og tilgængelighed

Wan2.2 tilbyder tre forskellige modelvarianter, der dækker forskellige krav og hardwarekonfigurationer:

Wan2.2-T2V-A14B: En tekst-til-video-model med 27 milliarder parametre (14 milliarder aktive), der genererer videoer med en opløsning på 720p og 16fps.
Wan2.2-I2V-A14B: En billede-til-video-model med den samme arkitektur til konvertering af statiske billeder til videoer.
Wan2.2-TI2V-5B: En kompakt model med 5 milliarder parametre, der kombinerer både tekst-til-video- og billede-til-video-funktioner i et samlet framework.

Den kompakte TI2V-5B-model repræsenterer et betydeligt gennembrud, da den kan generere 5-sekunders 720p-videoer på under 9 minutter på en enkelt forbruger-GPU som RTX 4090. Denne hastighed gør den til en af de hurtigste 720p@24fps-modeller på markedet, hvilket giver både industrielle applikationer og akademisk forskning mulighed for at drage fordel af teknologien.

Avanceret UAE-arkitektur for optimeret komprimering

TI2V-5B-modellen er baseret på en yderst effektiv 3D VAE-arkitektur med et kompressionsforhold på 4×16×16, hvilket øger den samlede informationskomprimeringshastighed til 64. Med et ekstra patching-lag når det samlede kompressionsforhold for TI2V-5B endda 4×32×32, hvilket sikrer videorekonstruktion i høj kvalitet med minimale lagerkrav.

Denne avancerede komprimeringsteknologi gør det muligt for modellen at understøtte både tekst-til-video og billede-til-video-opgaver i et enkelt, samlet framework, der dækker både akademisk forskning og praktiske anvendelser.

Benchmark-præstation og markedsposition

Wan2.2 blev testet mod førende kommercielle AI-videogenereringsmodeller, herunder Sora, KLING 2.0 og Hailuo 02, ved hjælp af den nye Wan-Bench 2.0 evalueringssuite. Resultaterne viser, at Wan2.2 opnår topmoderne ydeevne i de fleste kategorier og overgår sine konkurrenter på højt niveau.

I direkte ranglistesammenligninger sikrede Wan2.2-T2V-A14B sig førstepladsen i fire af de seks vigtigste benchmark-dimensioner, herunder de kritiske områder æstetisk kvalitet og bevægelsesdynamik. Denne præstation etablerer Wan2.2 som den nye markedsleder inden for open source-videogenerering i høj opløsning.

Tilgængelighed og integration af åben kildekode

Wan2.2 er tilgængelig som fuldt open source-software under Apache 2.0-licensen og kan downloades fra Hugging Face, GitHub og ModelScope. Modellerne er allerede integreret i populære frameworks som ComfyUI og Diffusers, hvilket muliggør problemfri brug i eksisterende arbejdsgange.

TI2V-5B-modellen har et brugsklart Hugging Face Space, der giver brugerne mulighed for at afprøve teknologien med det samme uden komplekse installationer. Denne tilgængelighed demokratiserer adgangen til banebrydende videogenereringsteknologi og fremmer innovation på tværs af udviklerfællesskabet.

Kinas strategiske AI-offensiv

Udgivelsen af Wan2.2 er en del af en bredere kinesisk open source AI-strategi, der allerede har vakt international opmærksomhed med modeller som DeepSeek. Denne strategi stemmer overens med Kinas officielle digitaliseringsplan, som har fremmet open source-samarbejde som en national ressource siden 2018 og forudser massive statslige investeringer i AI-infrastruktur.

Alibaba har allerede registreret over 5,4 millioner downloads af sine WAN-modeller på Hugging Face og ModelScope, hvilket understreger den stærke internationale efterspørgsel efter kinesiske open source AI-løsninger. Virksomheden planlægger yderligere investeringer på cirka 52 milliarder dollars i cloud computing og AI-infrastruktur for at styrke sin position på dette hurtigt voksende marked.

Relateret til dette:

B2B-indkøb: Forsyningskæder, handel, markedspladser og AI-drevet sourcing

Wan2.2 skaber et gennembrud inden for AI-videoer: Open source på professionelt niveau

Wan2.2 repræsenterer et vendepunkt inden for AI-videogenerering og tilbyder det første open source-alternativ til betalte, proprietære modeller, der kan konkurrere med kommercielle løsninger. Kombinationen af filmisk kvalitet, effektiv hardwareudnyttelse og fuldstændig open source-tilgængelighed positionerer modellen som et attraktivt alternativ for indholdsskabere, filmskabere og udviklere verden over.

Udgivelsen vil sandsynligvis intensivere konkurrencen inden for AI-drevet videogenerering og kan tilskynde andre virksomheder til at forfølge lignende open source-strategier. Med sin evne til at køre på forbrugerhardware og levere professionelle resultater har Wan2.2 potentialet til at demokratisere videoproduktion og åbne op for nye kreative muligheder.

Ved at kombinere avanceret teknologi med en åben udviklingsfilosofi sætter Alibaba nye standarder inden for AI-videogenerering med Wan2.2 og etablerer Kina som en førende kraft inden for global AI-innovation. De vidtrækkende konsekvenser af denne udvikling vil fundamentalt ændre den måde, videoer skabes og produceres på i de kommende år.

Relateret til dette:

Din ekspert i AI-transformation, AI-integration og AI-platformbranchen

☑️ Vores forretningssprog er engelsk eller tysk

☑️ NYT: Korrespondance på dit modersmål!

Konrad Wolfenstein

Jeg og mit team er glade for at stå til rådighed for dig som din personlige rådgiver.

Du kan kontakte mig ved at udfylde kontaktformularen her eller blot ringe til mig på +49 89 89 674 804 ( München) . Min e-mailadresse er: [email protected]

Jeg glæder mig til vores fælles projekt.

Kinas store video-AI-offensiv: Med Wan 2.2 sigter Alibaba mod at overhale Vesten – og gør alt open source

Dette er Alibabas nye vidunder AI Wan2.2: Gratis, mere kraftfuld end konkurrenterne og tilgængelig for alle

Kinas videosvar på OpenAIs Sora: Denne nye AI genererer videoer i biografkvalitet – og den er gratis

Teknologisk revolution gennem MoE-arkitektur

Filmæstetik og filmisk kontrol

Avancerede træningsdata og generering af kompleks bevægelse

Effektiv hardwareudnyttelse og tilgængelighed

Avanceret UAE-arkitektur for optimeret komprimering

Benchmark-præstation og markedsposition

Tilgængelighed og integration af åben kildekode

Kinas strategiske AI-offensiv

Wan2.2 skaber et gennembrud inden for AI-videoer: Open source på professionelt niveau

Din ekspert i AI-transformation, AI-integration og AI-platformbranchen

☑️ Vores forretningssprog er engelsk eller tysk

☑️ NYT: Korrespondance på dit modersmål!

☑️ SMV-support inden for strategi, rådgivning, planlægning og implementering

☑️ Oprettelse eller omlægning af AI-strategien

☑️ Pioner inden for forretningsudvikling