Výběr hlasu 📢


Čínské velké video Ki Ofensive: S WAN 2.2 Alibaba chce předjíždět Západ – a dělá vše open source

Publikováno dne: 30. července 2025 / Aktualizace od: 30. července 2025 – Autor: Konrad Wolfenstein

Čínská velká AI Ofensive: S WAN 2.2 Alibaba chce předjíždět Západ – a dělá vše open source

Čínská velká AI ofenzíva: S WAN 2.2 Alibaba chce předjíždět Západ – a dělá veškerý open source – Image: Xpert.Digital

Toto je nový Alibabaův nový Wunder-Ki WAN2.2: Zdarma, silnější než konkurence a dostupné pro všechny

Čínská video reakce na Sora von OpenAAI: Tato nová AI generuje videa v kvalitě kina – a je také zdarma

Čínská technologická společnost Alibaba zveřejnila zajímavou novou verzi svého modelu s otevřeným zdrojovým kódem 29. července 2025 s WAN2.2, a tak zásadně změnila krajinu umělé inteligence pro produkci videa. Tato inovativní technologie představuje první video model s otevřeným zdrojovým kódem na světě, který implementoval architekturu směsi expertů (MOE) a byl navržen jak pro profesionální filmové produkce, tak pro použití na komerčně dostupném hardwaru.

Vhodné pro:

Technologická revoluce prostřednictvím architektury MOE

Poprvé představuje WAN2.2 architekturu směsi expertů ve video oddaných modelech, což je významný technologický průlom. Tato inovativní architektura pracuje s duálním expertním systémem, který rozděluje proces gramogenizace do dvou specializovaných fází. První odborník se zaměřuje na rané fáze potlačení šumu a určuje základní rozložení scény, zatímco druhý odborník převezme pozdější fáze a zdokonaluje podrobnosti a textury.

Systém má celkem 27 miliard parametrů, ale aktivuje pouze 14 miliard parametrů na inferenční krok, což snižuje výpočetní úsilí až o 50 procent, aniž by to ovlivnilo kvalitu. Toto zvýšení účinnosti umožňuje generovat videa s vysokou kvalitou, zatímco výpočetní náklady zůstávají konstantní a současně se rozšiřuje celková kapacita modelu.

Filmová estetika a filmová kontrola

Vynikající vlastností WAN2.2 je systém filmového estetického řízení, který uživatelům umožňuje provádět přesnou kontrolu nad různými vizuálními rozměry. Model byl vyškolen s pečlivě kurátorskými estetickými daty, která obsahují podrobné štítky pro osvětlení, kompozici, kontrast, barvu, kameru, velikost obrazu, ohniskovou délku a další filmové parametry.

Tato funkce je založena na kinematicky inspirovaném rychlém systému, který kategorizuje klíčové rozměry, jako je osvětlení, osvětlení, složení a zbarvení. V důsledku toho může WAN2.2 přesně interpretovat a implementovat estetické záměry uživatelů během procesu generování, což umožňuje vytváření videí s přizpůsobitelnými filmovými preferencemi.

Rozšířené tréninkové údaje a složité generování pohybu

Ve srovnání s předchůdcem WAN2.1 byla sada školení výrazně rozšířena: o 65,6 procenta více obrazových dat a o 83,2 procenta více videa. Tato masivní rozšíření dat významně zlepšuje zobecňovací dovednosti modelu a zvyšuje tvůrčí rozmanitost v několika dimenzích, jako je pohyb, sémantika a estetika.

Model ukazuje významná zlepšení ve výrobě složitých pohybů, včetně živých výrazů obličeje, dynamických gest rukou a komplikovaných sportovních pohybů. Kromě toho poskytuje realistické reprezentace se zlepšeným dodržováním příkazů a dodržování fyzických zákonů, což vede k přirozenějším a přesvědčivějším video sekvencím.

Efektivní použití a dostupnost hardwaru

WAN2.2 nabízí tři různé modelové varianty, které pokrývají různé požadavky a hardwarové konfigurace:

  • WAN2.2-T2V-A14B: Model textu na video s 27 miliardami parametrů (14 miliard aktivních), který generuje videa s rozlišením 720p a 16 spls.
  • WAN2.2-I2V-A14B: Model obrázku na video se stejnou architekturou pro přeměnu statických obrázků na videa.
  • WAN2.2-TI2V-5B: Kompaktní model 5 miliard parametrů, který kombinuje jak text na video, tak image-video v jednotném rámci.

Kompaktní model TI2V-5B je speciální průlom, protože může generovat 5 sekund 720p videí za méně než 9 minut na jednom spotřebitelském GPU, jako je RTX 4090. Tato rychlost z něj činí jeden z nejrychlejších dostupných modelů 720p@24fps modely a modely 720p@24FPS modely a modely 720p@24fps a umožňuje těžit z technologie.

Pokročilá architektura Vae pro optimalizovanou kompresi

Model TI2V 5B je založen na vysoce účinné architektuře 3D VAE s kompresním poměrem 4 × 16 × 16, což zvyšuje celkovou míru komprese informací na 64. s dodatečnou patchofikační vrstvou, celkový kompresní poměr TI2V-5B dokonce dosáhne rekonstrukci vysoce kvalitního videa s požadavky na minimální paměť.

Tato pokročilá kompresní technologie umožňuje modelu podporovat jak text-to-Video, tak i obrazu na video v jediném jednotném rámci, který pokrývá akademický výzkum i praktické aplikace.

Benchmark výkon a pozice na trhu

WAN2.2 byl testován proti přednímu komerčnímu video modelu AI s pomocí nové sady pro hodnocení WAN-Bench 2.0, včetně Sora, Kling 2.0 a Hailuo 02. Výsledky ukazují, že WAN2.2 dosahuje nejmodernějšího výkonu ve většině kategorií a překračuje jeho konkurenty na vysoké úrovni.

V přímém srovnání hodnocení zajistil WAN2.2-T2V-A14B první místo ve čtyřech ze šesti centrálních referenčních rozměrů, včetně estetické kvality a dynamiky pohybu. Toto představení stanoví WAN2.2 jako nový lídr na trhu s otevřeným zdrojovým kódem v gramogenizaci s vysokým rozlišením.

Dostupnost a integrace otevřeného zdroje

WAN2.2 je k dispozici jako zcela open source software na základě licence Apache 2.0 a lze jej stáhnout prostřednictvím objímání Face, Github a Modelscope. Modely již byly integrovány do populárních rámců, jako jsou Comfyui a difuzory, což umožňuje bezproblémové použití ve stávajících pracovních postupech.

Objímání obličejového prostoru je k dispozici pro přímé použití pro model TI2V 5B, což znamená, že uživatelé mohou technologii vyzkoušet okamžitě, aniž by museli provádět složité instalace. Tato přístupnost demokratizuje přístup ke státu - - -Art dieogenní technologie a podporuje inovace v celé komunitě vývojářů.

Čínská strategická ofenzíva AI

Publikace WAN2.2 je součástí širší čínské strategie AI s otevřeným zdrojovým kódem, která již přitahovala mezinárodní pozornost modely jako Deepseek. Tato strategie se řídí oficiálním čínským digitalizačním plánem, který od roku 2018 podporuje spolupráci s otevřeným zdrojovým kódem jako národní zdroj a stanoví masivní státní investice do infrastruktury AI.

Alibaba již zaznamenala více než 5,4 milionu stahování svých modelů WAN na objímání obličeje a modelových vozidel, což podtrhuje silnou mezinárodní poptávku po čínských řešeních AI s otevřeným zdrojovým zdrojem. Společnost plánuje další investice ve výši přibližně 52 miliard dolarů do cloud computingu a infrastruktury umělé inteligence, aby konsolidovala svou pozici na tomto rychle rostoucím trhu.

Vhodné pro:

WAN2.2 poskytuje průlom na videích AI: Open Source na profesionální úrovni

WAN2.2 představuje zlom v gramoogenizaci AI, protože nabízí první alternativu s otevřeným zdrojovým kódem, která má být zaplacena, proprietární modely, které mohou konkurovat komerčním řešením. Kombinace filmové kvality, efektivního využití hardwaru a úplné dostupnosti open source umístí model jako atraktivní alternativu pro výrobce obsahu, filmaře a vývojáře po celém světě.

Publikace pravděpodobně zintenzivňuje konkurenci v oblasti gramoogenizace AI a může způsobit, že ostatní společnosti budou provádět podobné strategie s otevřeným zdrojovým kódem. Díky své schopnosti provozovat spotřebitelský hardware a poskytovat profesionální výsledky, má WAN2.2 potenciál demokratizovat produkci video a otevírat nové kreativní příležitosti.

Prostřednictvím kombinace pokročilé technologie s otevřenou vývojovou filozofií stanoví Alibaba s WAN2.2 nové standardy v gramoogenizaci AI a zřizuje Čínu jako vedoucí sílu v globální inovaci AI. V nadcházejících letech změní způsob, jak tento vývoj tento vývoj změní způsob, jakým jsou videa vytvářena a produkována, změní způsob, jakým jsou videa vytvářena a vyráběna.

Vhodné pro:

 

Vaše transformace AI, integrace AI a odborník na platformu AI

☑️ Naším obchodním jazykem je angličtina nebo němčina

☑️ NOVINKA: Korespondence ve vašem národním jazyce!

 

Digitální průkopník – Konrad Wolfenstein

Konrad Wolfenstein

Rád vám a mému týmu posloužím jako osobní poradce.

Kontaktovat mě můžete vyplněním kontaktního formuláře nebo mi jednoduše zavolejte na číslo +49 89 89 674 804 (Mnichov) . Moje e-mailová adresa je: wolfenstein xpert.digital

Těším se na náš společný projekt.

 

 

☑️ Podpora MSP ve strategii, poradenství, plánování a implementaci

☑ Vytváření nebo přepracování strategie AI

☑️ Pioneer Business Development


Umělá inteligence (KI) blog, hotspot a obsahový rozbočovačXPaper