Opublikowano: 30 lipca 2025 / Aktualizacja od: 30 lipca 2025 r. – Autor: Konrad Wolfenstein
Wielka AI Chin Ofensywna: Wan 2.2 Alibaba chce wyprzedzić Zachód – i robi całe open source – Image: xpert.digital
To jest nowy Wunder-Ki Wan2.2 Alibaba: bezpłatny, silniejszy niż konkurencja i dostępna dla wszystkich
Reakcja wideo Chin na Sora von Openaai: ta nowa sztuczna inteligencja generuje filmy w jakości kina – i jest również bezpłatna
Chińska firma technologiczna Alibaba opublikowała nową nową wersję swojego modelu wideo open source 29 lipca 2025 r. Z WAN2.2, a zatem zasadniczo zmieniła krajobraz sztucznej inteligencji do produkcji wideo. Ta innowacyjna technologia reprezentuje pierwszy na świecie model wideo open source, który zaimplementował architekturę mieszanki ekonomicznych (MOE) i została zaprojektowana zarówno do profesjonalnych produkcji filmowych, jak i do wykorzystania na dostępnym na rynku sprzętu.
Nadaje się do:
- Alibaba inwestuje ponad 50 miliardów dolarów w AI i przetwarzanie w chmurze – Sztuczna inteligencja ogólna (AGI) odgrywa centralną rolę
Rewolucja technologiczna za pośrednictwem architektury Moe
Po raz pierwszy WAN2.2 wprowadza architekturę mieszanki ekspertów w modelach oddania wideo, co jest znaczącym przełomem technologicznym. Ta innowacyjna architektura współpracuje z podwójnym systemem ekspertów, który dzieli proces wideo na dwie specjalistyczne fazy. Pierwszy ekspert koncentruje się na wczesnych fazach tłumienia hałasu i określa podstawowy układ sceny, podczas gdy drugi ekspert przejmuje późniejsze fazy i udoskonala szczegóły i tekstury.
System ma łącznie 27 miliardów parametrów, ale aktywuje tylko 14 miliardów parametrów na etap wnioskowania, co zmniejsza wysiłek obliczeniowy nawet o 50 procent bez wpływu na jakość. Ten wzrost wydajności umożliwia generowanie filmów o wysokiej jakości, podczas gdy koszty obliczeniowe pozostają stałe, a jednocześnie rozszerzona jest ogólna pojemność modelu.
Estetyka filmu i kontrola filmowa
Znakomita cechą WAN2.2 jest filmowy system kontroli estetycznej, który umożliwia użytkownikom przeprowadzanie precyzyjnej kontroli nad różnymi wymiarami wizualnymi. Model został przeszkolony z starannie wyselekcjonowanymi danymi estetycznymi, które zawierają szczegółowe etykiety do oświetlenia, kompozycji, kontrastu, koloru, płyty kamerowej, wielkości obrazu, ogniskowej i innych parametrów filmowych.
Ta funkcjonalność oparta jest na inspirowanym kinowym systemie, który kategoryzuje kluczowe wymiary, takie jak oświetlenie, oświetlenie, kompozycja i kolorystyka. W rezultacie WAN2.2 może precyzyjnie interpretować i wdrażać estetyczne intencje użytkowników podczas procesu generowania, co umożliwia tworzenie filmów z konfigurowalnymi preferencjami filmowymi.
Rozszerzone dane treningowe i złożone generowanie ruchu
W porównaniu z poprzednikiem WAN2.1 zestaw danych szkoleniowych został znacznie rozszerzony: 65,6 procent więcej danych obrazu i 83,2 procent więcej danych wideo. To ogromne rozszerzenie danych znacznie poprawia umiejętności uogólnienia modelu i zwiększa twórczą różnorodność w kilku wymiarach, takich jak ruch, semantyka i estetyka.
Model pokazuje znaczną poprawę w produkcji złożonych ruchów, w tym ożywione mimice, dynamiczne gesty rąk i skomplikowane ruchy sportowe. Ponadto zapewnia realistyczne reprezentacje lepszą zgodność dowodzenia i zgodność z prawem fizycznym, co prowadzi do bardziej naturalnych i przekonujących sekwencji wideo.
Efektywne wykorzystanie i dostępność sprzętu
WAN2.2 oferuje trzy różne warianty modelu, które obejmują różne wymagania i konfiguracje sprzętowe:
- WAN2.2-T2V-A14B: model tekstu do filmu z 27 miliardami parametrów (14 miliardów aktywnych), który generuje filmy o rozdzielczości 720p i 16 klatkach na sekundę.
- WAN2.2-I2V-A14B: model obrazu do filmu z tą samą architekturą do konwersji statycznych obrazów na filmy.
- WAN2.2-TI2V-5B: kompaktowy model parametrów 5 miliardów, który łączy zarówno funkcje tekstu do filmu i wizyty w jednolitym ramie.
Kompaktowy model TI2V-5B jest specjalnym przełomem, ponieważ może wygenerować 5 sekund filmów 720p w mniej niż 9 minut na pojedynczym procesorze graficznym konsumenckim, takim jak RTX 4090. Ta prędkość sprawia, że jest to jeden z najszybszych dostępnych modeli 720p@24 FPS i umożliwia zarówno aplikacje przemysłowe, jak i badania akademickie, aby skorzystać z technologii.
Zaawansowana architektura VAE do zoptymalizowanej kompresji
Model TI2V 5B oparty jest na wysoce wydajnej architekturze 3D VAE o współczynniku kompresji 4 × 16 × 16, co zwiększa całkowitą szybkość sprężania informacji do 64. z dodatkową warstwą elastyfikacji, całkowity współczynnik kompresji TI2V-5B osiąga nawet 4 × 32 × 32, co zapewnia rekonstrukcję wysokiej jakości wideo z minimalnymi wymaganiami pamięci.
Ta zaawansowana technologia kompresyjna umożliwia modelu obsługę zarówno zadań tekstowych do filmu, jak i wizerunków w jednym, jednolitym ramie, które obejmują zarówno badania akademickie, jak i praktyczne zastosowania.
Wydajność porównawcza i pozycja rynkowa
WAN2.2 został przetestowany w stosunku do wiodących komercyjnych modeli wideo wideo AI za pomocą nowego pakietu oceny WAN-Bench 2.0, w tym Sora, Kling 2.0 i Hailuo 02. Wyniki pokazują, że WAN2.2 osiąga najnowocześniejszą wydajność w większości kategorii i przekracza konkurencję na wysokim poziomie.
W bezpośrednim porównaniu rankingu WAN2.2-T2V-A14B zabezpieczył pierwsze miejsce w czterech z sześciu centralnych wymiarów porównawczych, w tym jakość estetyczną i dynamikę ruchu. Wydajność określa WAN2.2 jako nowy lider rynku open source w zakresie wideo o wysokiej rozdzielczości.
Dostępność i integracja open source
WAN2.2 jest dostępny jako oprogramowanie całkowicie open source na licencji Apache 2.0 i można je pobrać za pośrednictwem Hisging Face, Github i ModelsCope. Modele zostały już zintegrowane z popularnymi ramami, takimi jak Comfyui i Dyfusers, które umożliwiają płynne użycie w istniejących przepływach pracy.
Przytulanie przestrzeni twarzy jest dostępne do bezpośredniego wykorzystania modelu TI2V 5B, co oznacza, że użytkownicy mogą natychmiast wypróbować technologię bez konieczności przeprowadzania złożonych instalacji. Ta dostępność demokratyzuje dostęp do państwa -of -Art Technologii wideo i promuje innowacje w całej społeczności deweloperów.
Strategiczny ofensywny AI Chin
Publikacja WAN2.2 jest częścią szerszej chińskiej strategii AI open source, która już przyciągnęła międzynarodową uwagę w modelach takich jak Deepseek. Strategia ta jest zgodna z oficjalnym chińskim planem digitalizacji, który promuje współpracę open source jako zasób krajowy od 2018 r. I zapewnia ogromne inwestycje państwowe w infrastrukturę AI.
Alibaba zarejestrował już ponad 5,4 miliona pobrań swoich modeli WAN na temat przytulania twarzy i modeli, co podkreśla silne międzynarodowe zapotrzebowanie na chińskie rozwiązania AI open source. Firma planuje dalsze inwestycje w wysokości około 52 miliardów dolarów w przetwarzanie w chmurze i infrastrukturze AI w celu konsolidacji swojej pozycji na tym szybko rosnącym rynku.
Nadaje się do:
WAN2.2 zapewnia przełom na temat filmów AI: Open source na poziomie profesjonalnym
WAN2.2 stanowi punkt zwrotny w wideo AI, ponieważ oferuje pierwszą alternatywę open source, którą można zapłacić, zastrzeżone modele, które mogą konkurować z rozwiązaniami komercyjnymi. Połączenie jakości kinowej, wydajnego wykorzystania sprzętu i kompletnej dostępności open source jest modelu jako atrakcyjna alternatywa dla producentów treści, twórców filmowych i programistów na całym świecie.
Publikacja prawdopodobnie zintensyfikuje konkurencję w dziedzinie wideo AI i może spowodować, że inne firmy będą realizować podobne strategie open source. Dzięki swojej zdolności do prowadzenia sprzętu konsumenckiego i dostarczania profesjonalnych wyników, WAN2.2 ma potencjał do demokratyzacji produkcji wideo i otwarcia nowych możliwości twórczych.
Dzięki połączeniu zaawansowanej technologii z otwartą filozofią rozwojową Alibaba z WAN2.2 ustanawia nowe standardy wideo AI i ustanawia Chiny jako wiodącą siłę w globalnej innowacji AI. Daleki efekt tego rozwoju zmieni sposób tworzenia i produkowania filmów w nadchodzących latach.
Nadaje się do:
Twoja transformacja AI, integracja AI i ekspert w branży platformy AI
☑️Naszym językiem biznesowym jest angielski lub niemiecki
☑️ NOWOŚĆ: Korespondencja w Twoim języku narodowym!
Chętnie będę służyć Tobie i mojemu zespołowi jako osobisty doradca.
Możesz się ze mną skontaktować wypełniając formularz kontaktowy lub po prostu dzwoniąc pod numer +49 89 89 674 804 (Monachium) . Mój adres e-mail to: wolfenstein ∂ xpert.digital
Nie mogę się doczekać naszego wspólnego projektu.