
Serangan AI besar-besaran China: Dengan Wan 2.2, Alibaba bertujuan untuk mengungguli Barat – dan menjadikan semuanya sumber terbuka – Gambar: Xpert.Digital
Inilah keajaiban baru Alibaba, AI Wan2.2: Gratis, lebih andal dari para pesaing, dan tersedia untuk semua orang
Jawaban Tiongkok terhadap Sora milik OpenAI: AI baru ini menghasilkan video berkualitas sinema – dan gratis
Pada 29 Juli 2025, perusahaan teknologi Tiongkok Alibaba merilis Wan2.2, versi baru yang menarik dari model pembuatan video sumber terbuka miliknya, yang secara fundamental mengubah lanskap kecerdasan buatan untuk produksi video. Teknologi inovatif ini mewakili model pembuatan video sumber terbuka pertama di dunia yang menerapkan arsitektur Mixture-of-Experts (MoE), yang dirancang untuk produksi film profesional dan penggunaan pada perangkat keras standar.
Berkaitan dengan ini:
- Alibaba menginvestasikan lebih dari 50 miliar dolar AS dalam AI dan komputasi awan – Kecerdasan Buatan Umum (AGI) memainkan peran sentral
Revolusi teknologi melalui arsitektur MoE
Wan2.2 memperkenalkan arsitektur campuran pakar pada model difusi video untuk pertama kalinya, yang merupakan terobosan teknologi yang signifikan. Arsitektur inovatif ini menggunakan sistem pakar ganda yang membagi proses pembuatan video menjadi dua fase khusus. Pakar pertama berfokus pada tahap awal pengurangan noise dan menentukan tata letak adegan dasar, sementara pakar kedua menangani tahap selanjutnya, menyempurnakan detail dan tekstur.
Sistem ini memiliki total 27 miliar parameter, tetapi hanya mengaktifkan 14 miliar parameter per langkah inferensi, mengurangi upaya komputasi hingga 50 persen tanpa mengorbankan kualitas. Peningkatan efisiensi ini memungkinkan untuk menghasilkan video berkualitas tinggi sambil menjaga biaya komputasi tetap konstan dan sekaligus memperluas kapasitas model secara keseluruhan.
Estetika film dan kontrol sinematik
Salah satu fitur unggulan Wan2.2 adalah sistem kontrol estetika sinematiknya, yang memungkinkan pengguna untuk mengendalikan berbagai dimensi visual secara presisi. Model ini dilatih menggunakan data estetika yang dipilih dengan cermat, termasuk label detail untuk pencahayaan, komposisi, kontras, rona, sudut kamera, ukuran gambar, panjang fokus, dan parameter sinematik lainnya.
Fungsi ini didasarkan pada sistem petunjuk yang terinspirasi dari sinematografi yang mengkategorikan dimensi-dimensi kunci seperti pencahayaan, iluminasi, komposisi, dan warna. Hal ini memungkinkan Wan2.2 untuk secara tepat menafsirkan dan mengimplementasikan niat estetika pengguna selama proses pembuatan, sehingga memungkinkan pembuatan video dengan preferensi sinematik yang dapat disesuaikan.
Data pelatihan tingkat lanjut dan pembangkitan gerakan kompleks
Dibandingkan dengan pendahulunya, Wan2.1, dataset pelatihan telah diperluas secara signifikan: 65,6 persen lebih banyak data gambar dan 83,2 persen lebih banyak data video. Perluasan data yang masif ini secara signifikan meningkatkan kemampuan generalisasi model dan meningkatkan keragaman kreatif di berbagai dimensi seperti gerakan, semantik, dan estetika.
Model ini menunjukkan peningkatan signifikan dalam menghasilkan gerakan kompleks, termasuk ekspresi wajah yang realistis, gerakan tangan yang dinamis, dan gerakan atletik yang rumit. Selain itu, model ini memberikan rendering realistis dengan kepatuhan perintah dan kepatuhan terhadap hukum fisika yang lebih baik, menghasilkan rangkaian video yang lebih alami dan meyakinkan.
Pemanfaatan dan aksesibilitas perangkat keras yang efisien
Wan2.2 menawarkan tiga varian model berbeda yang mencakup berbagai kebutuhan dan konfigurasi perangkat keras:
- Wan2.2-T2V-A14B: Model teks-ke-video dengan 27 miliar parameter (14 miliar aktif) yang menghasilkan video dengan resolusi 720p dan 16fps.
- Wan2.2-I2V-A14B: Sebuah model konversi gambar ke video dengan arsitektur yang sama untuk mengubah gambar statis menjadi video.
- Wan2.2-TI2V-5B: Sebuah model ringkas dengan 5 miliar parameter yang menggabungkan fungsi teks-ke-video dan gambar-ke-video dalam kerangka kerja terpadu.
Model TI2V-5B yang ringkas ini merupakan terobosan signifikan, karena mampu menghasilkan video 720p berdurasi 5 detik dalam waktu kurang dari 9 menit dengan satu GPU konsumen seperti RTX 4090. Kecepatan ini menjadikannya salah satu model 720p@24fps tercepat yang tersedia, sehingga aplikasi industri dan penelitian akademis dapat memanfaatkan teknologi ini.
Arsitektur UAE canggih untuk kompresi yang optimal
Model TI2V-5B didasarkan pada arsitektur VAE 3D yang sangat efisien dengan rasio kompresi 4×16×16, meningkatkan tingkat kompresi informasi keseluruhan hingga 64. Dengan lapisan patching tambahan, rasio kompresi keseluruhan TI2V-5B bahkan mencapai 4×32×32, memastikan rekonstruksi video berkualitas tinggi dengan kebutuhan penyimpanan minimal.
Teknologi kompresi canggih ini memungkinkan model untuk secara native mendukung tugas konversi teks ke video dan gambar ke video dalam satu kerangka kerja terpadu, mencakup penelitian akademis dan aplikasi praktis.
Tolok ukur kinerja dan posisi pasar
Wan2.2 diuji terhadap model-model AI penghasil video komersial terkemuka, termasuk Sora, KLING 2.0, dan Hailuo 02, menggunakan rangkaian evaluasi Wan-Bench 2.0 yang baru. Hasilnya menunjukkan bahwa Wan2.2 mencapai kinerja terbaik di sebagian besar kategori dan mengungguli para pesaingnya yang berlevel tinggi.
Dalam perbandingan peringkat langsung, Wan2.2-T2V-A14B meraih posisi pertama dalam empat dari enam dimensi tolok ukur utama, termasuk area penting kualitas estetika dan dinamika gerakan. Pencapaian ini menjadikan Wan2.2 sebagai pemimpin pasar sumber terbuka baru dalam pembuatan video resolusi tinggi.
Ketersediaan dan integrasi sumber terbuka
Wan2.2 tersedia sebagai perangkat lunak sumber terbuka sepenuhnya di bawah lisensi Apache 2.0 dan dapat diunduh dari Hugging Face, GitHub, dan ModelScope. Model-model tersebut telah terintegrasi ke dalam kerangka kerja populer seperti ComfyUI dan Diffusers, memungkinkan penggunaan yang lancar dalam alur kerja yang ada.
Model TI2V-5B memiliki fitur Hugging Face Space yang siap digunakan, memungkinkan pengguna untuk langsung mencoba teknologi ini tanpa instalasi yang rumit. Aksesibilitas ini mendemokratisasi akses ke teknologi pembuatan video mutakhir dan mendorong inovasi di seluruh komunitas pengembang.
Serangan AI strategis Tiongkok
Peluncuran Wan2.2 merupakan bagian dari strategi AI sumber terbuka Tiongkok yang lebih luas yang telah menarik perhatian internasional dengan model-model seperti DeepSeek. Strategi ini sejalan dengan rencana digitalisasi resmi Tiongkok, yang telah mempromosikan kolaborasi sumber terbuka sebagai sumber daya nasional sejak tahun 2018 dan membayangkan investasi besar-besaran pemerintah dalam infrastruktur AI.
Alibaba telah mencatat lebih dari 5,4 juta unduhan model wan-nya di Hugging Face dan ModelScope, yang menggarisbawahi permintaan internasional yang kuat untuk solusi AI sumber terbuka buatan Tiongkok. Perusahaan berencana untuk melakukan investasi lebih lanjut sekitar $52 miliar dalam komputasi awan dan infrastruktur AI untuk memperkuat posisinya di pasar yang berkembang pesat ini.
Berkaitan dengan ini:
Wan2.2 menghadirkan terobosan dalam video AI: Sumber terbuka di tingkat profesional
Wan2.2 mewakili titik balik dalam generasi video AI, menawarkan alternatif sumber terbuka pertama untuk model berbayar dan berpemilik yang dapat bersaing dengan solusi komersial. Kombinasi kualitas sinematik, pemanfaatan perangkat keras yang efisien, dan ketersediaan sumber terbuka sepenuhnya menempatkan model ini sebagai alternatif yang menarik bagi pembuat konten, pembuat film, dan pengembang di seluruh dunia.
Peluncuran ini kemungkinan akan meningkatkan persaingan di bidang pembuatan video berbasis AI dan dapat mendorong perusahaan lain untuk mengejar strategi sumber terbuka serupa. Dengan kemampuannya untuk berjalan di perangkat keras konsumen dan memberikan hasil profesional, Wan2.2 berpotensi untuk mendemokratisasi produksi video dan membuka kemungkinan kreatif baru.
Dengan menggabungkan teknologi canggih dengan filosofi pengembangan terbuka, Alibaba menetapkan standar baru dalam pembuatan video berbasis AI dengan Wan2.2 dan menjadikan Tiongkok sebagai kekuatan terdepan dalam inovasi AI global. Implikasi luas dari perkembangan ini akan secara fundamental mengubah cara video dibuat dan diproduksi dalam beberapa tahun mendatang.
Berkaitan dengan ini:
Pakar industri transformasi AI, integrasi AI, dan platform AI Anda
☑️ Bahasa bisnis kami adalah bahasa Inggris atau Jerman
☑️ BARU: Korespondensi dalam bahasa ibu Anda!
Saya dan tim saya dengan senang hati siap membantu Anda sebagai penasihat pribadi Anda.
Anda dapat menghubungi saya dengan mengisi formulir kontak di sini cukup hubungi saya di +49 7348 4088 965. Alamat email saya adalah wolfenstein@xpert.digital:atau
Saya sangat menantikan proyek bersama kita.
