Diterbitkan pada: 30 Juli 2025 / Pembaruan dari: 30 Juli 2025 – Penulis: Konrad Wolfenstein
Ofensif AI Besar Tiongkok: Dengan WAN 2.2 Alibaba ingin menyusul Barat – dan melakukan semua sumber terbuka – gambar: xpert.digital
Ini adalah Wunder-Ki Wan2.2 baru Alibaba: gratis, lebih kuat dari kompetisi dan tersedia untuk semua orang
Respons video China terhadap Sora von Openaai: AI baru ini menghasilkan video dalam kualitas bioskop – dan juga gratis
Perusahaan teknologi Cina Alibaba menerbitkan versi baru yang menarik dari model video open source pada 29 Juli 2025 dengan WAN2.2 dan dengan demikian secara fundamental mengubah lanskap kecerdasan buatan untuk produksi video. Teknologi inovatif ini mewakili model video video open source pertama di dunia yang menerapkan arsitektur campuran-ekspert (MOE) dan dirancang untuk produksi film profesional dan untuk digunakan pada perangkat keras yang tersedia secara komersial.
Cocok untuk:
- Alibaba berinvestasi lebih dari $ 50 miliar dalam AI dan Cloud Computing – Buatan Kecerdasan Umum (AGI) memainkan peran sentral
Revolusi Teknologi Melalui Arsitektur MOE
Untuk pertama kalinya, WAN2.2 memperkenalkan arsitektur campuran-ahli dalam model renungan video, yang merupakan terobosan teknologi yang signifikan. Arsitektur inovatif ini bekerja dengan sistem ahli ganda yang membagi proses videoogenisasi menjadi dua fase khusus. Pakar pertama berfokus pada fase awal penindasan kebisingan dan menentukan tata letak dasar adegan, sementara ahli kedua mengambil alih fase selanjutnya dan memurnikan detail dan tekstur.
Sistem ini memiliki total 27 miliar parameter, tetapi hanya mengaktifkan 14 miliar parameter per langkah inferensi, yang mengurangi upaya komputasi hingga 50 persen tanpa mempengaruhi kualitas. Peningkatan efisiensi ini memungkinkan video berkualitas tinggi untuk dihasilkan, sementara biaya komputasi tetap konstan dan pada saat yang sama keseluruhan kapasitas model diperluas.
Estetika film dan kontrol sinematik
Fitur yang luar biasa dari WAN2.2 adalah sistem kontrol estetika sinematik, yang memungkinkan pengguna untuk melakukan kontrol yang tepat atas berbagai dimensi visual. Model ini dilatih dengan data estetika yang dikuratori dengan hati -hati yang berisi label terperinci untuk pencahayaan, komposisi, kontras, warna, kompor kamera, ukuran gambar, panjang fokus, dan parameter sinematik lainnya.
Fungsi ini didasarkan pada sistem prompt yang diilhami secara sinematik yang mengkategorikan dimensi kunci seperti pencahayaan, iluminasi, komposisi dan pewarnaan. Akibatnya, WAN2.2 dapat secara tepat menafsirkan dan mengimplementasikan niat estetika pengguna selama proses pembuatan, yang memungkinkan pembuatan video dengan preferensi sinematik yang dapat disesuaikan.
Data pelatihan yang diperluas dan pembuatan gerakan yang kompleks
Dibandingkan dengan pendahulu WAN2.1, kumpulan data pelatihan secara signifikan diperluas: 65,6 persen lebih banyak data gambar dan 83,2 persen lebih banyak data video. Perluasan data besar -besaran ini secara signifikan meningkatkan keterampilan generalisasi model dan meningkatkan keragaman kreatif dalam beberapa dimensi seperti gerakan, semantik dan estetika.
Model ini menunjukkan peningkatan yang signifikan dalam produksi gerakan kompleks, termasuk ekspresi wajah yang hidup, gerakan tangan dinamis dan pergerakan olahraga yang rumit. Selain itu, ia memberikan representasi realistis dengan kepatuhan komando yang lebih baik dan kepatuhan terhadap hukum fisik, yang mengarah pada urutan video yang lebih alami dan meyakinkan.
Penggunaan dan aksesibilitas perangkat keras yang efisien
WAN2.2 menawarkan tiga varian model berbeda yang mencakup persyaratan dan konfigurasi perangkat keras yang berbeda:
- WAN2.2-T2V-A14B: Model teks-ke-video dengan 27 miliar parameter (14 miliar aktif), yang menghasilkan video dengan resolusi 720p dan 16fps.
- WAN2.2-I2V-A14B: Model gambar-ke-video dengan arsitektur yang sama untuk konversi gambar statis menjadi video.
- WAN2.2-TI2V-5B: Model parameter 5 miliar kompak yang menggabungkan fungsi teks-ke-video dan gambar-ke-video dalam kerangka kerja yang seragam.
Model TI2V-5B yang ringkas adalah terobosan khusus, karena dapat menghasilkan 5 detik video 720p dalam waktu kurang dari 9 menit pada GPU konsumen tunggal seperti RTX 4090. Kecepatan ini menjadikannya salah satu model 720p@24FPS tercepat yang tersedia dan memungkinkan kedua aplikasi industri dan penelitian akademik untuk mendapat manfaat dari teknologi.
Arsitektur VAE lanjutan untuk kompresi yang dioptimalkan
Model Ti2V 5B didasarkan pada arsitektur VAE 3D yang sangat efisien dengan rasio kompresi 4 × 16 × 16, yang meningkatkan total laju kompresi informasi menjadi 64. Dengan lapisan patchifikasi tambahan, total rasio kompresi dari Ti2V-5b bahkan mencapai 4 × 32 × 32, yang memastikan rekonstruksi video yang tinggi dengan minimal.
Teknologi kompresi canggih ini memungkinkan model untuk mendukung tugas teks-ke-video dan gambar-ke-video dalam satu kerangka kerja yang seragam, yang mencakup penelitian akademik dan aplikasi praktis.
Kinerja benchmark dan posisi pasar
WAN2.2 diuji terhadap model video AI komersial terkemuka dengan bantuan rangkaian evaluasi WAN-Bench 2.0 yang baru, termasuk Sora, Kling 2.0 dan Hailuo 02. Hasilnya menunjukkan bahwa WAN2.2 mencapai kinerja canggih di sebagian besar kategori dan melampaui pesaing tingkat tinggi.
Dalam perbandingan peringkat langsung, WAN2.2-T2V-A14B diamankan tempat pertama dalam empat dari enam dimensi benchmark pusat, termasuk kualitas estetika dan dinamika gerak. Kinerja ini menetapkan WAN2.2 sebagai pemimpin pasar open source baru dalam videoogenisasi resolusi tinggi.
Ketersediaan dan integrasi sumber terbuka
WAN2.2 tersedia sebagai perangkat lunak sumber yang sepenuhnya terbuka di bawah lisensi Apache 2.0 dan dapat diunduh melalui Hugging Face, Github dan Modelscope. Model -model telah diintegrasikan ke dalam kerangka kerja populer seperti Comfyui dan Diffusers, yang memungkinkan penggunaan yang mulus dalam alur kerja yang ada.
Hugging Face Space tersedia untuk penggunaan langsung untuk model Ti2V 5B, yang berarti bahwa pengguna dapat segera mencoba teknologi tanpa harus melakukan instalasi yang kompleks. Aksesibilitas ini mendemokratisasikan akses ke negara -dari -teknologi videoogenisasi dan mempromosikan inovasi di seluruh komunitas pengembang.
Ofensif AI strategis China
Publikasi WAN2.2 adalah bagian dari strategi AI open source Cina yang lebih luas yang telah menarik perhatian internasional dengan model -model seperti Deepseek. Strategi ini mengikuti Rencana Digitalisasi Tiongkok Resmi, yang telah mempromosikan kolaborasi open source sebagai sumber daya nasional sejak 2018 dan menyediakan investasi negara besar dalam infrastruktur AI.
Alibaba telah mencatat lebih dari 5,4 juta unduhan model WAN -nya tentang memeluk wajah dan model, yang menggarisbawahi permintaan internasional yang kuat untuk solusi AI open source Cina. Perusahaan sedang merencanakan investasi lebih lanjut sekitar $ 52 miliar dalam komputasi awan dan infrastruktur AI untuk mengkonsolidasikan posisinya di pasar yang berkembang pesat ini.
Cocok untuk:
Wan2.2 memberikan terobosan pada video AI: open source di tingkat profesional
WAN2.2 merupakan titik balik dalam videoogenisasi AI karena menawarkan alternatif open source pertama yang dibayar, model berpemilik yang dapat bersaing dengan solusi komersial. Kombinasi kualitas sinematik, penggunaan perangkat keras yang efisien dan posisi ketersediaan sumber terbuka yang lengkap model ini sebagai alternatif yang menarik bagi produsen konten, pembuat film, dan pengembang di seluruh dunia.
Publikasi ini kemungkinan akan mengintensifkan persaingan di bidang videoogenisasi AI dan dapat menyebabkan perusahaan lain mengejar strategi sumber terbuka yang serupa. Dengan kemampuannya untuk menjalankan perangkat keras konsumen dan memberikan hasil profesional, WAN2.2 memiliki potensi untuk mendemokratisasi produksi video dan membuka peluang kreatif baru.
Melalui kombinasi teknologi canggih dengan filosofi perkembangan terbuka, Alibaba dengan WAN2.2 menetapkan standar baru dalam videoogenisasi AI dan membentuk Cina sebagai kekuatan utama dalam inovasi AI global. Efek yang jauh dari perkembangan ini akan mengubah cara di mana video dibuat dan diproduksi, di tahun -tahun mendatang.
Cocok untuk:
Transformasi AI Anda, Integrasi AI dan Pakar Industri Platform AI
☑️ Bahasa bisnis kami adalah Inggris atau Jerman
☑️ BARU: Korespondensi dalam bahasa nasional Anda!
Saya akan dengan senang hati melayani Anda dan tim saya sebagai penasihat pribadi.
Anda dapat menghubungi saya dengan mengisi formulir kontak atau cukup hubungi saya di +49 89 89 674 804 (Munich) . Alamat email saya adalah: wolfenstein ∂ xpert.digital
Saya menantikan proyek bersama kita.