Вибір голосу 📢


Китайське велике відео наступає: з WAN 2.2 Alibaba хоче обігнати Захід – і робить все відкритим кодом

Опубліковано: 30 липня 2025 р. / Оновлення від: 30 липня 2025 р. – Автор: Конрад Вольфенштейн

Китайський наступив великий AI: з WAN 2.2 Alibaba хоче наздогнати Захід – і робить все відкритим кодом

Китайський наступив великий AI: з WAN 2.2 Alibaba хоче наздогнати Захід – і робить все з відкритим кодом – зображення: xpert.digital

Це новий Wunder-Ki Wan2.2 Alibaba: безкоштовно, потужніший, ніж конкуренція, і доступний для всіх

Відео -відповідь Китаю на Sora von Openaai: Цей новий AI генерує відео в якості кіно – а також безкоштовно

Китайська технологічна компанія Alibaba опублікувала цікаву нову версію своєї відео -моделі з відкритим кодом 29 липня 2025 року з WAN2.2 і, таким чином, принципово змінила ландшафт штучного інтелекту для виробництва відео. Ця інноваційна технологія являє собою першу в світі відео-модель з відкритим кодом, яка реалізувала архітектуру суміші експертів (MOE) та була розроблена як для професійних кінопродукцій, так і для використання на комерційно доступному обладнанні.

Підходить для цього:

Технологічна революція через архітектуру МО

Вперше WAN2.2 представляє архітектуру суміші експертів у відео відданих моделях, що є важливим технологічним проривом. Ця інноваційна архітектура працює з подвійною експертною системою, яка розділяє процес відеоогенізації на дві спеціалізовані фази. Перший експерт зосереджується на ранніх етапах придушення шуму і визначає основний макет сцени, а другий експерт переймає пізніші фази та уточнює деталі та текстури.

Система має загалом 27 мільярдів параметрів, але активує лише 14 мільярдів параметрів на етап виводу, що зменшує обчислювальні зусилля до 50 відсотків, не впливаючи на якість. Це підвищення ефективності дозволяє генерувати відео високої якості, тоді як обчислювальні витрати залишаються постійними, і в той же час загальна потужність моделі розширюється.

Естетика та кінематографічний контроль

Видатною особливістю WAN2.2 є система кінематографічного естетичного управління, яка дозволяє користувачам здійснювати точний контроль над різними візуальними розмірами. Модель проводила навчання з ретельно куратором естетичних даних, які містять детальні мітки для освітлення, композиції, контрасту, кольору, вузли для камери, розміру зображення, фокусної відстані та інших кінематографічних параметрів.

Ця функціональність заснована на кінематографічно натхненній системі оперативної системи, яка класифікує ключові розміри, такі як освітлення, освітлення, композиція та забарвлення. Як результат, WAN2.2 може точно інтерпретувати та реалізувати естетичні наміри користувачів під час процесу генерації, що дозволяє створити відео з налаштованими кінематичними уподобаннями.

Розширені дані про навчання та складне генерація руху

Порівняно з попередником WAN2.1, набір даних про навчання був значно розширений: на 65,6 відсотка більше даних зображень та на 83,2 відсотка більше відео даних. Це масове розширення даних значно покращує навички узагальнення моделі та збільшує творче різноманіття в декількох вимірах, таких як рух, семантика та естетика.

Модель показує значні вдосконалення у виробництві складних рухів, включаючи жваві міміки, динамічні жести руки та складні спортивні рухи. Крім того, він надає реалістичні уявлення з вдосконаленою відповідністю командування та дотриманням фізичних законів, що призводить до більш природних та переконливих відеопослідовностей.

Ефективне використання обладнання та доступність

WAN2.2 пропонує три різні варіанти моделі, які охоплюють різні вимоги та конфігурації обладнання:

  • WAN2.2-T2V-A14B: Модель тексту до відео з 27 мільярдів параметрів (14 мільярдів активних), яка генерує відео з роздільною здатністю 720p та 16 кадрів в секунду.
  • WAN2.2-I2V-A14B: Модель зображення до відео з тією ж архітектурою для перетворення статичних зображень у відео.
  • WAN2.2-TI2V-5B: Компактна модель параметрів 5 мільярдів, яка поєднує як функції тексту до відео, так і зображення-відео в рівномірних рамках.

Компактна модель TI2V-5B є спеціальним проривом, оскільки вона може генерувати 5 секунд 720p відео за менш ніж 9 хвилин за один GPU споживачів, як RTX 4090. Ця швидкість робить його однією з найшвидших доступних моделей 720p@24 кадрів та дозволяє як промислові додатки, так і академічні дослідження на користь від технологій.

Вдосконалена архітектура VAE для оптимізованого стиснення

Модель TI2V 5B базується на високоефективній архітектурі 3D VAE з коефіцієнтом стиснення 4 × 16 × 16, що збільшує загальну швидкість стиснення інформації до 64. З додатковим шарами патчіфікації загальне співвідношення стиснення TI2V-5B навіть досягає вимог до пам'яті 4 × 32 × 32.

Ця вдосконалена технологія стиснення дозволяє моделі підтримувати як Text-inideo, так і зображення до відео в одній, рівномірній основі, яка охоплює як академічні дослідження, так і практичні програми.

Орієнтовна ефективність та позиція на ринку

WAN2.2 був протестований проти провідних комерційних відео-моделей AI відео за допомогою нового набору оцінювання WAN-Bench 2.0, включаючи Sora, Kling 2.0 та Hailuo 02. Результати показують, що WAN2.2 досягає найсучасніших результатів у більшості категорій та перевищує конкурентів високого рівня.

У порівнянні прямого рейтингу WAN2.2-T2V-A14B забезпечив перше місце у чотирьох із шести центральних орієнтирів, включаючи естетичну якість та динаміку руху. Ця продуктивність встановлює WAN2.2 як новий лідер ринку з відкритим кодом у відеоогенізації з високою роздільною здатністю.

Наявність та інтеграція з відкритим кодом

WAN2.2 доступний як повністю з відкритим кодом програмне забезпечення під ліцензією Apache 2.0 і його можна завантажити через Hunging Face, Github та ModelsCope. Моделі вже були інтегровані в популярні рамки, такі як COMFYUI та дифузатори, що дозволяє безшовно використовувати в існуючих робочих процесах.

Обіймаючи простір для обличчя, доступний для прямого використання для моделі TI2V 5B, а це означає, що користувачі можуть негайно випробувати технологію без необхідності проведення складних установ. Ця доступність демократизує доступ до державної технології відеоогенізації та сприяє інноваціям у всій спільноті розробників.

Китайський стратегічний наступ AI

Публікація WAN2.2 є частиною більш широкої китайської стратегії AI з відкритим кодом, яка вже привернула міжнародну увагу з такими моделями, як DeepSeek. Ця стратегія слідкує за офіційним китайським планом оцифрування, який просуває співпрацю з відкритим кодом як національний ресурс з 2018 року та передбачає масштабні державні інвестиції в інфраструктуру ШІ.

Alibaba вже зафіксував понад 5,4 мільйона завантажень своїх моделей WAN на обійми Face та ModelsCope, що підкреслює сильний міжнародний попит на китайські рішення AI з відкритим кодом. Компанія планує подальші інвестиції в розмірі близько 52 мільярдів доларів хмарних обчислень та інфраструктури AI для консолідації своїх позицій на цьому швидко зростаючому ринку.

Підходить для цього:

WAN2.2 забезпечує прорив на відео AI: з відкритим кодом на професійному рівні

WAN2.2 являє собою поворотну точку відеоказогенізації AI, оскільки він пропонує першу альтернативу з відкритим кодом, яка повинна бути сплачена, власні моделі, які можуть конкурувати з комерційними рішеннями. Поєднання кінематографічної якості, ефективного використання обладнання та повної доступності з відкритим кодом позиціонує модель як привабливу альтернативу для виробників контенту, режисерів та розробників у всьому світі.

Публікація, ймовірно, посилить конкуренцію в галузі відео -відеоогенізації та може призвести до того, що інші компанії здійснюють подібні стратегії з відкритим кодом. Завдяки своїй здатності працювати на споживчому обладнанні та надавати професійні результати, WAN2.2 має потенціал для демократизації відеопродукції та відкриття нових творчих можливостей.

Завдяки поєднанню передових технологій з відкритою філософією розвитку, Alibaba з WAN2.2 встановлює нові стандарти відеоказогенізації AI та встановлює Китай як провідну силу глобальних інновацій AI. Далекі ефекти цього розвитку змінить спосіб створення та створених відео в найближчі роки.

Підходить для цього:

 

Ваша трансформація AI, інтеграція AI та експерт з питань індустрії платформ AI

☑ Наша ділова мова - англійська чи німецька

☑ Нове: листування на вашій національній мові!

 

Цифровий піонер – Конрад Вольфенштейн

Конрад Вольфенштейн

Я радий бути доступним вам та моїй команді як особистого консультанта.

Ви можете зв’язатися зі мною, заповнивши тут контактну форму або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) . Моя електронна адреса: Вольфенштейн xpert.digital

Я з нетерпінням чекаю нашого спільного проекту.

 

 

☑ Підтримка МСП у стратегії, порадах, плануванні та впровадженні

☑ Створення або перестановка стратегії AI

☑ Піонерський розвиток бізнесу


Штучний інтелект (KI) -блог, гаряча точка та контент -центрxpaper