Available in 27 languages 📢
Xpert.Digital bei Google bevorzugen

Hiina suurim videotehisintellekti pealetung: Wan 2.2-ga tahab Alibaba läänest ette jõuda – ja teeb kõik avatud lähtekoodiga

Avaldatud: 30. juulil 2025 / Uuendatud: 30. juulil 2025 – Autor: Konrad Wolfenstein

Hiina peamine tehisintellekti pealetung: Wan 2.2-ga tahab Alibaba läänest ette jõuda – ja teeb kõik avatud lähtekoodiga

Hiina peamine tehisintellekti pealetung: Wan 2.2-ga püüab Alibaba läänest ette jõuda – ja muudab kõik avatud lähtekoodiga – Pilt: Xpert.Digital

See on Alibaba uus imeline tehisintellekt Wan2.2: tasuta, võimsam kui konkurents ja kõigile kättesaadav

Hiina videovastus OpenAI Sorale: see uus tehisintellekt genereerib kinokvaliteediga videoid – ja see on tasuta

29. juulil 2025 avaldas Hiina tehnoloogiaettevõte Alibaba Wan2.2, oma avatud lähtekoodiga videote genereerimise mudeli põneva uue versiooni, mis muudab põhjalikult tehisintellekti maastikku videote tootmises. See uuenduslik tehnoloogia on maailma esimene avatud lähtekoodiga videote genereerimise mudel, mis rakendab Mixture-of-Experts (MoE) arhitektuuri, mis on loodud nii professionaalseks filmitootmiseks kui ka kasutamiseks standardsel riistvaral.

Sobib selleks:

Tehnoloogiline revolutsioon läbi ministeeriumi arhitektuuri

Wan2.2 tutvustab video difusioonimudelites esmakordselt ekspertide segu arhitektuuri, mis kujutab endast olulist tehnoloogilist läbimurret. See uuenduslik arhitektuur kasutab kahekordset ekspertsüsteemi, mis jagab video genereerimise protsessi kaheks spetsialiseeritud etapiks. Esimene ekspert keskendub müra vähendamise algstaadiumidele ja määrab stseeni põhipaigutuse, teine ​​ekspert aga tegeleb hilisemate etappidega, täpsustades detaile ja tekstuure.

Süsteemil on kokku 27 miljardit parameetrit, kuid see aktiveerib iga järeldusetapi kohta ainult 14 miljardit parameetrit, vähendades arvutuslikku pingutust kuni 50 protsenti ilma kvaliteeti kahjustamata. See efektiivsuse suurenemine võimaldab genereerida kvaliteetseid videoid, hoides samal ajal arvutuskulud konstantsena ja laiendades samal ajal mudeli üldist võimsust.

Filmi esteetika ja kinematograafiline kontroll

Wan2.2 silmapaistev omadus on selle kinemaatiline esteetika juhtimissüsteem, mis võimaldab kasutajatel täpselt kontrollida erinevaid visuaalseid dimensioone. Mudel treeniti hoolikalt kureeritud esteetiliste andmete põhjal, sealhulgas detailsete siltidega valgustuse, kompositsiooni, kontrasti, värvitooni, kaameranurga, pildi suuruse, fookuskauguse ja muude kinemaatiliste parameetrite kohta.

See funktsionaalsus põhineb filmikunstist inspireeritud süsteemil, mis kategoriseerib võtmetähtsusega aspekte, nagu valgustus, kompositsioon ja värv. See võimaldab Wan2.2-l genereerimisprotsessi käigus täpselt tõlgendada ja rakendada kasutaja esteetilisi kavatsusi, võimaldades luua kohandatavate filmilike eelistustega videoid.

Täiustatud treeningandmed ja keerukate liikumiste genereerimine

Võrreldes eelkäijaga Wan2.1 on treeningandmestikku oluliselt laiendatud: 65,6 protsenti rohkem pildiandmeid ja 83,2 protsenti rohkem videoandmeid. See tohutu andmete laiendamine parandab märkimisväärselt mudeli üldistusvõimet ja suurendab loomingulist mitmekesisust mitmes dimensioonis, nagu liikumine, semantika ja esteetika.

Mudel näitab märkimisväärseid edusamme keerukate liigutuste genereerimisel, sealhulgas elutruude näoilmete, dünaamiliste käeliigutuste ja keerukate sportlike liigutuste puhul. Lisaks pakub see realistlikke renderdusi parema käskude kuulekuse ja füüsikaseaduste järgimisega, mille tulemuseks on loomulikumad ja veenvamad videoseeriad.

Tõhus riistvara kasutamine ja ligipääsetavus

Wan2.2 pakub kolme erinevat mudelivarianti, mis hõlmavad erinevaid nõudeid ja riistvarakonfiguratsioone:

  • Wan2.2-T2V-A14B: Tekstist videoks teisendav mudel 27 miljardi parameetriga (14 miljardit aktiivset), mis genereerib videoid 720p eraldusvõimega ja 16 kaadrit sekundis.
  • Wan2.2-I2V-A14B: Pilt-video mudel, millel on sama arhitektuur staatiliste piltide videoteks teisendamiseks.
  • Wan2.2-TI2V-5B: kompaktne 5 miljardi parameetriga mudel, mis ühendab ühtses raamistikus nii tekstist videoks kui ka pildist videoks teisendamise funktsioonid.

Kompaktne TI2V-5B mudel kujutab endast märkimisväärset läbimurret, kuna see suudab ühel tarbijale mõeldud graafikakaardil, näiteks RTX 4090, genereerida 5-sekundilisi 720p videoid vähem kui 9 minutiga. See kiirus teeb sellest ühe kiireima saadaoleva 720p@24fps mudeli, mis võimaldab nii tööstuslikel rakendustel kui ka akadeemilistel uuringutel sellest tehnoloogiast kasu saada.

Täiustatud AÜE arhitektuur optimeeritud tihendamiseks

TI2V-5B mudel põhineb ülitõhusal 3D VAE arhitektuuril, mille tihendussuhe on 4×16×16, suurendades üldist teabe tihendamise määra 64-ni. Täiendava paigamiskihiga ulatub TI2V-5B üldine tihendussuhe isegi 4×32×32-ni, tagades kvaliteetse video rekonstrueerimise minimaalsete salvestusvajadustega.

See täiustatud tihendustehnoloogia võimaldab mudelil toetada nii tekstist videoks kui ka pildist videoks teisendamise ülesandeid ühes ja ühtses raamistikus, hõlmates nii akadeemilist uurimistööd kui ka praktilisi rakendusi.

Võrdlusnäitajate tulemuslikkus ja turupositsioon

Wan2.2 testiti uue Wan-Bench 2.0 hindamiskomplekti abil juhtivate kommertslike tehisintellekti videote genereerimise mudelite, sealhulgas Sora, KLING 2.0 ja Hailuo 02 vastu. Tulemused näitavad, et Wan2.2 saavutab tipptasemel jõudluse enamikus kategooriates ja edestab oma kõrgema taseme konkurente.

Otseses võrdluses saavutas Wan2.2-T2V-A14B esikoha neljas kuuest peamisest võrdlusmõõtmest, sealhulgas esteetilise kvaliteedi ja liikumisdünaamika kriitilistes valdkondades. See saavutus teeb Wan2.2-st uue avatud lähtekoodiga turuliidri kõrglahutusega videote genereerimise valdkonnas.

Avatud lähtekoodi kättesaadavus ja integratsioon

Wan2.2 on saadaval täielikult avatud lähtekoodiga tarkvarana Apache 2.0 litsentsi alusel ning selle saab alla laadida Hugging Face'ist, GitHubist ja ModelScope'ist. Mudelid on juba integreeritud populaarsetesse raamistikesse nagu ComfyUI ja Diffusers, võimaldades sujuvat kasutamist olemasolevates töövoogudes.

TI2V-5B mudelil on kasutusvalmis Hugging Face Space, mis võimaldab kasutajatel tehnoloogiat kohe proovida ilma keerukate installideta. See ligipääsetavus demokratiseerib juurdepääsu tipptasemel videote genereerimise tehnoloogiale ja soodustab innovatsiooni arendajate kogukonnas.

Hiina strateegiline tehisintellekti pealetung

Wan2.2 väljalase on osa laiemast Hiina avatud lähtekoodiga tehisintellekti strateegiast, mis on juba pälvinud rahvusvahelist tähelepanu selliste mudelitega nagu DeepSeek. See strateegia on kooskõlas Hiina ametliku digitaliseerimiskavaga, mis on alates 2018. aastast edendanud avatud lähtekoodiga koostööd riikliku ressursina ja näeb ette ulatuslikke valitsuse investeeringuid tehisintellekti taristusse.

Alibaba on Hugging Face'i ja ModelScope'i platvormidel juba registreerinud üle 5,4 miljoni allalaadimise oma wan-mudelitele, mis rõhutab Hiina avatud lähtekoodiga tehisintellekti lahenduste järele suurt rahvusvahelist nõudlust. Ettevõte plaanib oma positsiooni tugevdamiseks sellel kiiresti kasvaval turul investeerida pilvandmetöötlusse ja tehisintellekti taristusse ligikaudu 52 miljardit dollarit.

Sobib selleks:

Wan2.2 toob läbimurde tehisintellekti videote vallas: avatud lähtekoodiga tarkvara professionaalsel tasemel

Wan2.2 kujutab endast pöördepunkti tehisintellektil põhineva video genereerimises, pakkudes esimest avatud lähtekoodiga alternatiivi tasulistele patenteeritud mudelitele, mis suudab konkureerida kommertslahendustega. Kinokvaliteedi, tõhusa riistvarakasutuse ja täieliku avatud lähtekoodiga kättesaadavuse kombinatsioon positsioneerib mudeli atraktiivse alternatiivina sisuloojatele, filmitegijatele ja arendajatele kogu maailmas.

See väljalase tõenäoliselt tihendab konkurentsi tehisintellektil põhineva videote genereerimise valdkonnas ja võib julgustada teisi ettevõtteid sarnaseid avatud lähtekoodiga strateegiaid rakendama. Tänu võimele töötada tarbijariistvaral ja pakkuda professionaalseid tulemusi on Wan2.2-l potentsiaal demokratiseerida videote tootmist ja avada uusi loomingulisi võimalusi.

Kombineerides tipptehnoloogiat avatud arendusfilosoofiaga, seab Alibaba Wan2.2 abil tehisintellektil põhineva video genereerimises uusi standardeid ja teeb Hiinast ülemaailmse tehisintellekti innovatsiooni juhtiva jõu. Selle arengu kaugeleulatuvad tagajärjed muudavad lähiaastatel põhjalikult videote loomise ja tootmise viisi.

Sobib selleks:

 

Teie AI ümberkujundamine, AI integreerimine ja AI platvormi tööstuse ekspert

☑️ Meie ärikeel on inglise või sakslane

☑️ Uus: kirjavahetus teie riigikeeles!

 

Digitaalne teerajaja - Konrad Wolfenstein

Konrad Wolfenstein

Mul on hea meel, et olete teile ja minu meeskonnale isikliku konsultandina kättesaadav.

Võite minuga ühendust võtta, täites siin kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) . Minu e -posti aadress on: Wolfenstein xpert.digital

Ootan meie ühist projekti.

 

 

☑️ VKE tugi strateegia, nõuannete, planeerimise ja rakendamise alal

☑️ AI strateegia loomine või ümberpaigutamine

☑️ teerajaja ettevõtluse arendamine


⭐️ Tehisintellekt (AI) – AI ajaveeb, leviala ja sisukeskus ⭐️ XPaper