Häälevalik 📢


Hiina suur video Ki rünnak: WAN 2.2 -ga soovib Alibaba läänest ületada – ja teeb kõik avatud lähtekoodiga

Avaldatud: 30. juuli 2025 / Uuendus: 30. juuli 2025 – autor: Konrad Wolfenstein

Hiina suur AI solvav: WAN 2.2 -ga soovib Alibaba läänest ületada – ja teeb kõik avatud lähtekoodiga

Hiina suur AI solvav: WAN 2.2 -ga soovib Alibaba läänest ületada – ja teeb kogu avatud lähtekoodi – pilt: xpert.digital

See on Alibaba uus Wunder-ki Wan2.2: tasuta, võimsam kui võistlus ja kõigile kättesaadav

Hiina videoreaktsioon Sora von OpenAai'le: see uus AI genereerib kinokvaliteedis videoid – ja on ka tasuta

Hiina tehnoloogiaettevõte Alibaba avaldas 29. juulil 2025 oma avatud lähtekoodiga videomudeli huvitava uue versiooni WAN2.2 -ga ja muutis seega põhimõtteliselt videotootmise tehisintellekti maastikku. See uuenduslik tehnoloogia esindab maailma esimest avatud lähtekoodiga videomudelit, mis rakendas segu segu (MOE) arhitektuuri ja oli mõeldud nii professionaalsete filmide lavastuste jaoks kui ka kasutamiseks kaubanduslikult saadava riistvara jaoks.

Sobib selleks:

Tehnoloogiline revolutsioon MOE arhitektuuri kaudu

Esmakordselt tutvustab WAN2.2 video pühendunud mudelites ekspertide segu arhitektuuri, mis on oluline tehnoloogiline läbimurre. See uuenduslik arhitektuur töötab kahekordse ekspertsüsteemiga, mis jagab videoogeniseerimisprotsessi kaheks spetsiaalseks etappiks. Esimene ekspert keskendub müra mahasurumise varajastele faasidele ja määrab stseeni põhise paigutuse, teine ekspert aga võtab üle hilisemad etapid ning täpsustab detaile ja tekstuure.

Süsteemil on kokku 27 miljardit parameetrit, kuid see aktiveerib järeldustetapi kohta ainult 14 miljardit parameetrit, mis vähendab arvutitegevust kuni 50 protsenti, ilma et see mõjutaks kvaliteeti. See efektiivsuse suurenemine võimaldab kõrgekvaliteedilisi videoid genereerida, samal ajal kui arvutuskulud püsivad püsivad ja samal ajal laiendatakse mudeli koguvõimsust.

Filmi esteetika ja kinemaatiline kontroll

WAN2.2 silmapaistev omadus on kinemaatiline esteetiline juhtimissüsteem, mis võimaldab kasutajatel täpset kontrolli erinevate visuaalsete mõõtmete üle viia. Mudelit koolitati hoolikalt kureeritud esteetiliste andmetega, mis sisaldavad üksikasjalikke silte valgustuse, kompositsiooni, kontrasti, värvi, kaamera pliidi, pildi suurus, fookuskauguse ja muude kinemaatiliste parameetrite jaoks.

See funktsionaalsus põhineb kinemaatiliselt inspireeritud kiirel süsteemil, mis liigitab peamised mõõtmed nagu valgustus, valgustus, kompositsioon ja värvimine. Selle tulemusel saab WAN2.2 täpselt tõlgendada ja rakendada kasutajate esteetilisi kavatsusi genereerimisprotsessi ajal, mis võimaldab luua videoid kohandatavate kinemaatiliste eelistustega.

Laiendatud koolituse andmed ja keeruline liikumise genereerimine

Võrreldes eelkäija WAN2.1 -ga laiendati treeninguandmete kogumit märkimisväärselt: 65,6 protsenti rohkem pildiandmeid ja 83,2 protsenti rohkem videoandmeid. See massiline andmete laienemine parandab märkimisväärselt mudeli üldistamisoskusi ja suurendab loomingulist mitmekesisust mitmetes mõõtmetes, näiteks liikumine, semantika ja esteetika.

Mudel näitab olulisi parandusi keerukate liikumiste tootmisel, sealhulgas elavad näoilmed, dünaamilised käeliigutused ja keerulised spordiliigutused. Lisaks pakub see realistlikke esitusi parema käsu vastavuse ja füüsiliste seaduste järgimisega, mis viib loomulikumate ja veenvamate videojärjestusteni.

Tõhus riistvara kasutamine ja juurdepääsetavus

WAN2.2 pakub kolme erinevat mudeli varianti, mis hõlmavad erinevaid nõudeid ja riistvara konfiguratsioone:

  • WAN2.2-T2V-A14B: 27 miljardi parameetriga (14 miljardit aktiivset) teksti-video-mudelit, mis genereerib videoid 720p eraldusvõimega ja 16 kaadrit sekundis.
  • WAN2.2-I2V-A14B: sama arhitektuuriga pildist video-mudel staatiliste piltide muutmiseks videoteks.
  • WAN2.2-TI2V-5B: kompaktne 5 miljardit parameetrimudelit, mis ühendab nii tekstist videost kui ka pildist video funktsioonid ühtses raamistikus.

Kompaktne TI2V-5b mudel on eriline läbimurre, kuna see võib genereerida 5 sekundit 720p videoid vähem kui 9 minutiga ühe tarbija GPU-ga, näiteks RTX 4090. See kiirus teeb sellest ühe kiireima saadaoleva 720p@24FPS mudelid ja võimaldab nii tööstuslikke rakendusi kui ka akadeemilisi uuringuid tehnoloogiast kasu saamiseks.

Täpsem VEE arhitektuur optimeeritud tihendamiseks

TI2V 5b mudel põhineb ülitõhusal 3D VAE arhitektuuril, mille survesuhtega on 4 × 16 × 16, mis suurendab kogu teabe kokkusurumiskiirust 64-ni. Täiendava paikamiskihiga jõuab TI2V-5B kogu tihendussuhe isegi 4 × 32 × 32, mis tagab kvaliteetsete videote ümberkujundamise minimaalsete mäluvajadustega.

See täiustatud tihendustehnoloogia võimaldab mudelil toetada nii tekstist videost kui ka piltidest videoülesandeid ühes ühtses raamistikus, mis hõlmab nii akadeemilisi uuringuid kui ka praktilisi rakendusi.

Võrdlusalus ja turupositsioon

WAN2.2 testiti uue WAN-Bench 2.0 hindamisviisi, sealhulgas Sora, Kling 2.0 ja Hailuo 02 abil juhtivate kaubanduslike AI-videovideomudelite vastu. Tulemused näitavad, et WAN2.2 saavutab enamikus kategooriates kaasaegse jõudluse ja ületab selle kõrgetasemelisi konkurente.

Otsese edetabeli võrdluses kindlustas WAN2.2-T2V-A14B esikoha kuuest keskmise mõõtemõõtmest neljas, sealhulgas esteetiline kvaliteet ja liikumisdünaamika. See jõudlus kehtestab WAN2.2 uue avatud lähtekoodiga turuliidrina kõrge eraldusvõimega videoogeniseerimisel.

Avatud lähtekoodiga saadavus ja integratsioon

WAN2.2 on Apache 2.0 litsentsi alusel saadaval täiesti avatud lähtekoodiga tarkvarana ja seda saab alla laadida näo, GitHubi ja ModelScope abil. Mudelid on juba integreeritud sellistesse populaarsetesse raamistikku nagu Comfyui ja hajuti, mis võimaldab sujuvat kasutada olemasolevates töövoogudes.

Nägeruumi kallistamine on TI2V 5B mudeli otseseks kasutamiseks saadaval, mis tähendab, et kasutajad saavad seda tehnoloogiat kohe proovida, ilma et peaksid keerulisi installatsioone läbi viima. See juurdepääsetavus demokratiseerib juurdepääsu olekule -Videogeniseerimise tehnoloogia jaoks ja edendab innovatsiooni kogu arendaja kogukonnas.

Hiina strateegiline AI solvav

WAN2.2 väljaanne on osa laiemast Hiina avatud lähtekoodiga AI strateegiast, mis on juba pälvinud rahvusvahelise tähelepanu nagu Deepseek. See strateegia järgib Hiina ametlikku digiteerimisplaani, mis on alates 2018. aastast propageerinud avatud lähtekoodiga koostööd riikliku ressursina ja näeb ette massilisi riiklikke investeeringuid AI infrastruktuuri.

Alibaba on juba salvestanud üle 5,4 miljoni oma WAN -mudelite allalaadimise näo- ja modellisõidul, mis rõhutab tugevat rahvusvahelist nõudlust Hiina avatud lähtekoodiga AI -lahenduste järele. Ettevõte plaanib täiendavaid investeeringuid umbes 52 miljardit dollarit pilvandmetöötluses ja AI infrastruktuuris, et konsolideerida oma positsiooni sellel kiiresti kasvaval turul.

Sobib selleks:

WAN2.2 pakub läbimurde AI -videotes: avatud lähtekoodiga professionaalsel tasandil

WAN2.2 esindab pöördepunkti AI videogeniseerimisel, kuna see pakub esimest tasulisele maksimaalsesse avatud lähtekoodiga alternatiivi, patenteeritud mudeleid, mis võivad konkureerida kommertslahendustega. Kinemaatilise kvaliteedi, tõhusa riistvara kasutamise ja täieliku avatud lähtekoodiga saadavuse kombinatsioon positsioneerib mudeli atraktiivse alternatiivina sisutootjatele, filmitegijatele ja arendajatele kogu maailmas.

Väljaanne intensiivistab tõenäoliselt konkurentsi AI videogeniseerimise valdkonnas ja võib panna teisi ettevõtteid järgima sarnaseid avatud lähtekoodiga strateegiaid. Oma võimega tegeleda tarbija riistvaraga ja anda professionaalseid tulemusi, on WAN2.2 potentsiaal videotootmise demokratiseerida ja uusi loomingulisi võimalusi avada.

Täpsema tehnoloogia kombinatsiooni kaudu avatud arengufilosoofiaga määrab Alibaba koos WAN2.2 -ga AI videoogeniseerimisel uusi standardeid ja kehtestab Hiina juhtiva jõu globaalse AI innovatsiooni valdkonnas. Selle arengu kaugeleulatuv mõju muudab lähiaastatel videote loomise ja toodete loomise viisi.

Sobib selleks:

 

Teie AI ümberkujundamine, AI integreerimine ja AI platvormi tööstuse ekspert

☑️ Meie ärikeel on inglise või sakslane

☑️ Uus: kirjavahetus teie riigikeeles!

 

Digitaalne teerajaja – Konrad Wolfenstein

Konrad Wolfenstein

Mul on hea meel, et olete teile ja minu meeskonnale isikliku konsultandina kättesaadav.

Võite minuga ühendust võtta, täites siin kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) . Minu e -posti aadress on: Wolfenstein xpert.digital

Ootan meie ühist projekti.

 

 

☑️ VKE tugi strateegia, nõuannete, planeerimise ja rakendamise alal

☑️ AI strateegia loomine või ümberpaigutamine

☑️ teerajaja ettevõtluse arendamine


⭐️ tehisintellekt (KI) ajaveeb, leviala ja sisukeskus ⭐️ XPaper