Hangválasztás 📢


Kína nagy videóját támadó: A WAN 2.2 -rel az Alibaba el akarja lépni a Nyugatot – és mindent megtesz a nyílt forráskódú forrásból

Megjelent: 2025. július 30. / Frissítés: 2025. július 30. – Szerző: Konrad Wolfenstein

Kína nagy AI sértője: A WAN 2.2 -rel Alibaba el akarja lépni a Nyugatot – és mindent megtesz a nyílt forráskódú

Kína nagy AI sértője: A WAN 2.2 -rel Alibaba el akarja lépni a Nyugatot – és az összes nyílt forráskódú – kép: xpert.digital

Ez az Alibaba új Wunder-Ki Wan2.2: Ingyenes, erősebb, mint a verseny, és mindenki számára elérhető

Kína videóválasza a Sora von Openaai -ra: Ez az új AI videókat generál a mozi minőségében – és szintén ingyenes

Az Alibaba kínai technológiai vállalat 2025. július 29 -én, a WAN2.2 -vel közzétette a nyílt forráskódú video modell érdekes új verzióját, és így alapvetően megváltoztatta a mesterséges intelligencia tájképét a videó előállításához. Ez az innovatív technológia a világ első nyílt forráskódú video-modelljét képviseli, amely a szakértők keverékét (MOE) építészetet hajtotta végre, és mind professzionális filmgyártásokhoz, mind pedig a kereskedelemben kapható hardverhez való felhasználásra tervezték.

Alkalmas:

Technológiai forradalom a MOE architektúrán keresztül

A WAN2.2 először vezet be egy szakember-architektúrát a videó odaadó modellekben, ami jelentős technológiai áttörés. Ez az innovatív architektúra egy kettős szakértői rendszerrel működik, amely a videoogenizációs folyamatot két speciális szakaszra osztja. Az első szakértő a zajcsökkentés korai szakaszaira összpontosít, és meghatározza a jelenet alapvető elrendezését, míg a második szakértő átveszi a későbbi szakaszokat, és finomítja a részleteket és a textúrákat.

A rendszernek összesen 27 milliárd paramétere van, de következtetési lépésenként csak 14 milliárd paramétert aktivál, ami akár 50 % -kal csökkenti a számítástechnikai erőfeszítéseket anélkül, hogy a minőséget befolyásolja. Ez a hatékonyság növekedése lehetővé teszi a nagy minőségű videók előállítását, míg a számítási költségek állandóak maradnak, és ugyanakkor a teljes modell kapacitása kibővül.

Film esztétika és filmművészet

A WAN2.2 kiemelkedő tulajdonsága a filmes esztétikai vezérlő rendszer, amely lehetővé teszi a felhasználók számára, hogy pontos ellenőrzést végezzenek a különféle vizuális dimenziók felett. A modellt gondosan kurátoros esztétikai adatokkal képezték, amelyek részletes címkéket tartalmaznak a megvilágításhoz, a kompozícióhoz, a kontraszthoz, a színhez, a kamera főzőlapja, a képméret, a fókuszhossz és más filmművészeti paraméterekhez.

Ez a funkció egy filmszerűen ihlette prompt rendszeren alapul, amely kategorizálja a kulcsfontosságú dimenziókat, például a megvilágítást, a megvilágítást, a kompozíciót és a színezést. Ennek eredményeként a WAN2.2 pontosan értelmezheti és megvalósíthatja a felhasználók esztétikai szándékait a generációs folyamat során, amely lehetővé teszi a testreszabható filmes preferenciákkal rendelkező videók létrehozását.

Bővített képzési adatok és összetett mozgási generáció

A WAN2.1 elődhöz képest az edzési adatkészlet szignifikánsan kibővült: 65,6 százalékkal több képadat és 83,2 % -kal több videoadat. Ez a hatalmas adatbővítés jelentősen javítja a modell általánosítási képességeit, és több dimenzióban növeli a kreatív sokféleséget, például a mozgást, a szemantikát és az esztétikát.

A modell jelentős javulást mutat a komplex mozgások előállításában, ideértve az élénk arckifejezéseket, a dinamikus kézmozdulatokat és a bonyolult sportmozgásokat. Ezenkívül reális reprezentációkat biztosít a jobb parancsok betartásával és a fizikai törvények betartásával, ami természetes és meggyőzőbb videokorokhoz vezet.

Hatékony hardverhasználat és akadálymentesség

A WAN2.2 három különböző modellváltozatot kínál, amelyek lefedik a különböző követelményeket és a hardverkonfigurációkat:

  • WAN2.2-T2V-A14B: Szöveg-video-modell 27 milliárd paraméterrel (14 milliárd aktív), amely videókat generál 720p felbontással és 16 kép / mp.
  • WAN2.2-I2V-A14B: Kép-VIDEO modell ugyanazzal az architektúrával a statikus képek videókká történő átalakításához.
  • WAN2.2-TI2V-5B: Egy kompakt 5 milliárd paramétermodell, amely egyesíti a szöveg-videót és a kép-videó funkciókat egységes keretben.

A kompakt TI2V-5B modell egy speciális áttörés, mivel 5 másodperces 720p videót generálhat kevesebb, mint 9 perc alatt egyetlen fogyasztói GPU-nál, mint például az RTX 4090. Ez a sebesség az egyik leggyorsabb elérhető 720p@24FPS modellt teszi lehetővé, és lehetővé teszi mind az ipari alkalmazások, mind az akadémiai kutatások számára a technológia előnyeit.

Fejlett VAE architektúra az optimalizált tömörítéshez

A TI2V 5B modell egy rendkívül hatékony 3D VAE architektúrán alapul, amelynek tömörítési aránya 4 × 16 × 16, ami a teljes információ tömörítési sebességét 64-re növeli. További javító réteggel a Ti2V-5B teljes tömörítési aránya eléri a 4 × 32 × 32-et, ami a kiváló minőségű videó rekonstrukciót biztosítja a minimális memória követelményekkel.

Ez a fejlett kompressziós technológia lehetővé teszi a modell számára, hogy támogassa mind a szöveges, mind a kép-videó-feladatok egységes keretrendszerében, amely mind az akadémiai kutatásokra, mind a gyakorlati alkalmazásokra vonatkozik.

Benchmark teljesítmény és piaci pozíció

A WAN2.2-et a vezető kereskedelmi AI video video modellek ellen tesztelték az új WAN-Sench 2.0 értékelési csomag segítségével, beleértve a SORA-t, a Kling 2.0-t és a Hailuo 02-et. Az eredmények azt mutatják, hogy a WAN2.2 a kategóriák többségében a legmodernebb teljesítményt éri el, és meghaladja a magas szintű versenytársait.

A közvetlen rangsorolás összehasonlításában a WAN2.2-T2V-A14B az első helyet a hat központi referenciaértékű dimenzió közül négyben biztosította, beleértve az esztétikai minőséget és a mozgásdinamikát. Ez a teljesítmény a WAN2.2-t mint új nyílt forráskódú piacvezetővé teszi a nagy felbontású videoogenizációban.

Nyílt forráskódú rendelkezésre állás és integráció

A WAN2.2 teljesen nyílt forráskódú szoftverként érhető el az Apache 2.0 licenc alatt, és letölthető a Face, a GitHub és a ModelsCope segítségével. A modelleket már beépítették a népszerű keretekbe, például a Comfyui -ba és a diffúzorokba, amelyek lehetővé teszik a zökkenőmentes felhasználást a meglévő munkafolyamatokban.

A Face Space átölelése a TI2V 5B modell számára közvetlen felhasználásra áll, ami azt jelenti, hogy a felhasználók azonnal kipróbálhatják a technológiát anélkül, hogy összetett telepítéseket kellene végrehajtania. Ez az akadálymentesség demokratizálja a -ART videoogenizációs technológiájának állapotához való hozzáférést, és elősegíti az innovációt az egész fejlesztői közösségben.

Kína stratégiai AI sértője

A WAN2.2 közzététele egy szélesebb kínai nyílt forráskódú AI stratégia része, amely már olyan modellekkel vonzza a nemzetközi figyelmet, mint a DeepSeek. Ez a stratégia követi a hivatalos kínai digitalizációs tervet, amely 2018 óta támogatja a nyílt forráskódú együttműködést nemzeti forrásként, és hatalmas állami beruházásokat biztosít az AI infrastruktúrába.

Az Alibaba már több mint 5,4 millió letöltést rögzített WAN -modelljeiről az Face és a Modelscope -on, ami hangsúlyozza a kínai nyílt forráskódú AI megoldások iránti erős nemzetközi igényt. A társaság további 52 milliárd dolláros beruházásokat tervez a felhőalapú számítástechnika és az AI infrastruktúra területén, hogy megszilárdítsa pozícióját ezen a gyorsan növekvő piacon.

Alkalmas:

A WAN2.2 áttörést biztosít az AI videókon: nyílt forráskódú szakmai szinten

A WAN2.2 fordulópontot képvisel az AI videoogenizációban, mivel az első nyílt forráskódú alternatívát kínálja a fizetési, szabadalmaztatott modellekhez, amelyek versenyezhetnek a kereskedelmi megoldásokkal. A filmminőség, a hatékony hardverhasználat és a nyílt forráskódú rendelkezésre állás kombinációja a modellt vonzó alternatívaként helyezi el a tartalomgyártók, a filmkészítők és a fejlesztők számára világszerte.

A kiadvány valószínűleg fokozza a versenyt az AI videoogenizációja területén, és más vállalatok számára hasonló nyílt forráskódú stratégiákat folytathat. Mivel képes a fogyasztói hardveren futtatni és professzionális eredményeket elérni, a WAN2.2 potenciálisan demokratizálhatja a videó előállítását és új kreatív lehetőségeket nyithat meg.

A fejlett technológia és a nyílt fejlődési filozófia kombinációján keresztül az Alibaba és a WAN2.2 új szabványokat állít be az AI videoogenizációban, és Kínát a globális AI innováció egyik vezető erejeként állítja be. Ennek a fejleménynek a messzemenő hatásai megváltoztatják a videók készítésének és előállításának módját az elkövetkező években.

Alkalmas:

 

Az AI átalakulása, AI integráció és AI platformipar szakértője

☑️ Üzleti nyelvünk angol vagy német

☑️ ÚJ: Levelezés az Ön nemzeti nyelvén!

 

Digitális úttörő – Konrad Wolfenstein

Konrad Wolfenstein

Szívesen szolgálok Önt és csapatomat személyes tanácsadóként.

Felveheti velem a kapcsolatot az itt található kapcsolatfelvételi űrlap kitöltésével , vagy egyszerűen hívjon a +49 89 89 674 804 (München) . Az e-mail címem: wolfenstein xpert.digital

Nagyon várom a közös projektünket.

 

 

☑️ KKV-k támogatása stratégiában, tanácsadásban, tervezésben és megvalósításban

☑️ Az AI stratégia létrehozása vagy átrendezése

☑️ Úttörő vállalkozásfejlesztés


⭐️ Mesterséges intelligencia (KI) blog, hotspot és tartalmi hub ⭐️ Xpaper