Значок веб-сайту Xpert.Digital

Великий наступ Китаю на відео з використанням штучного інтелекту: з Wan 2.2 Alibaba прагне випередити Захід – і робить все з відкритим вихідним кодом

Великий наступ Китаю на ШІ: З Wan 2.2 Alibaba прагне випередити Захід – і робить усе з відкритим вихідним кодом

Великий наступ Китаю на ШІ: З Wan 2.2 Alibaba прагне випередити Захід – і робить все з відкритим вихідним кодом – Зображення: Xpert.Digital

Це нове диво Alibaba — штучний інтелект Wan2.2: безкоштовний, потужніший за конкурентів і доступний для всіх

Китайська відеовідповідь на Sora від OpenAI: цей новий штучний інтелект генерує відео кінематографічної якості – і це безкоштовно

29 липня 2025 року китайська технологічна компанія Alibaba випустила Wan2.2, захопливу нову версію своєї моделі генерації відео з відкритим кодом, яка докорінно змінила ландшафт штучного інтелекту для відеовиробництва. Ця інноваційна технологія являє собою першу у світі модель генерації відео з відкритим кодом, яка реалізує архітектуру Mixture-of-Experts (MoE), розроблену як для професійного кіновиробництва, так і для використання на готовому обладнанні.

Пов'язано з цим:

Технологічна революція через архітектуру Міністерства освіти

Wan2.2 вперше впроваджує архітектуру змішаних експертів для моделей дифузії відео, що є значним технологічним проривом. Ця інноваційна архітектура використовує подвійну експертну систему, яка розділяє процес генерації відео на дві спеціалізовані фази. Перший експерт зосереджується на ранніх етапах шумозаглушення та визначає базове розташування сцени, тоді як другий експерт обробляє пізніші етапи, удосконалюючи деталі та текстури.

Система має загалом 27 мільярдів параметрів, але активує лише 14 мільярдів параметрів на кожному кроці виведення, що зменшує обчислювальні зусилля до 50 відсотків без шкоди для якості. Таке підвищення ефективності дозволяє створювати високоякісні відео, зберігаючи при цьому постійні обчислювальні витрати та одночасно розширюючи загальну потужність моделі.

Естетика фільму та кінематографічний контроль

Видатною особливістю Wan2.2 є система керування кінематографічною естетикою, яка дозволяє користувачам точно контролювати різні візуальні виміри. Модель була навчена на ретельно підібраних естетичних даних, включаючи детальні позначення освітлення, композиції, контрастності, відтінку, кута камери, розміру зображення, фокусної відстані та інших кінематографічних параметрів.

Ця функціональність базується на системі підказок, натхненній кінематографічним підходом, яка класифікує ключові параметри, такі як освітлення, ілюмінація, композиція та колір. Це дозволяє Wan2.2 точно інтерпретувати та реалізовувати естетичні наміри користувача під час процесу генерації, що дозволяє створювати відео з налаштовуваними кінематографічними параметрами.

Розширені навчальні дані та генерація складних рухів

Порівняно з попередником, Wan2.1, навчальний набір даних було значно розширено: на 65,6 відсотка більше даних зображень та на 83,2 відсотка більше відеоданих. Таке масове розширення даних значно покращує можливості узагальнення моделі та збільшує творчу різноманітність у багатьох вимірах, таких як рух, семантика та естетика.

Модель демонструє значні покращення у створенні складних рухів, включаючи реалістичну міміку, динамічні жести руками та складні атлетичні рухи. Крім того, вона забезпечує реалістичну візуалізацію з покращеним виконанням команд та дотриманням фізичних законів, що призводить до більш природних та переконливих відеопослідовностей.

Ефективне використання обладнання та доступність

Wan2.2 пропонує три різні варіанти моделей, які відповідають різним вимогам та конфігураціям обладнання:

  • Wan2.2-T2V-A14B: Модель перетворення тексту у відео з 27 мільярдами параметрів (14 мільярдів активних), яка генерує відео з роздільною здатністю 720p та частотою 16 кадрів/с.
  • Wan2.2-I2V-A14B: Модель перетворення зображення у відео з такою ж архітектурою для перетворення статичних зображень у відео.
  • Wan2.2-TI2V-5B: Компактна модель з 5 мільярдами параметрів, яка поєднує функції перетворення тексту у відео та зображення у відео в єдиній структурі.

Компактна модель TI2V-5B є значним проривом, оскільки вона може генерувати 5-секундні відео з роздільною здатністю 720p менш ніж за 9 хвилин на одному споживчому графічному процесорі, такому як RTX 4090. Така швидкість робить її однією з найшвидших моделей 720p@24fps, що дозволяє як промисловим програмам, так і академічним дослідженням скористатися перевагами цієї технології.

Розширена архітектура UAE для оптимізованого стиснення

Модель TI2V-5B базується на високоефективній 3D VAE-архітектурі зі ступенем стиснення 4×16×16, що збільшує загальний коефіцієнт стиснення інформації до 64. З додатковим шаром виправлень загальний коефіцієнт стиснення TI2V-5B навіть досягає 4×32×32, забезпечуючи високоякісну реконструкцію відео з мінімальними вимогами до сховища.

Ця передова технологія стиснення дозволяє моделі безпосередньо підтримувати завдання перетворення тексту у відео та зображень у відео в єдиній уніфікованій структурі, що охоплює як академічні дослідження, так і практичні застосування.

Еталонна продуктивність та позиція на ринку

Wan2.2 було протестовано на провідних комерційних моделях генерації відео на основі штучного інтелекту, включаючи Sora, KLING 2.0 та Hailuo 02, за допомогою нового пакету оцінювання Wan-Bench 2.0. Результати показують, що Wan2.2 досягає найсучаснішої продуктивності в більшості категорій та перевершує своїх конкурентів високого рівня.

У прямих порівняннях рейтингів Wan2.2-T2V-A14B зайняв перше місце за чотирма з шести ключових показників, включаючи критичні області естетичної якості та динаміки руху. Це досягнення робить Wan2.2 новим лідером на ринку програмного забезпечення з відкритим вихідним кодом у сфері генерації відео високої роздільної здатності.

Доступність та інтеграція з відкритим кодом

Wan2.2 доступний як повністю відкрите програмне забезпечення за ліцензією Apache 2.0 та може бути завантажений з Hugging Face, GitHub та ModelScope. Моделі вже інтегровані в популярні фреймворки, такі як ComfyUI та Diffusers, що забезпечує безперебійне використання в існуючих робочих процесах.

Модель TI2V-5B оснащена готовим до використання простором обіймання обличчя, що дозволяє користувачам одразу випробувати технологію без складних установок. Така доступність демократизує доступ до передових технологій створення відео та сприяє інноваціям у спільноті розробників.

Стратегічний наступ Китаю на ШІ

Випуск Wan2.2 є частиною ширшої китайської стратегії розвитку штучного інтелекту з відкритим кодом, яка вже привернула міжнародну увагу завдяки таким моделям, як DeepSeek. Ця стратегія узгоджується з офіційним планом цифровізації Китаю, який з 2018 року просуває співпрацю з відкритим кодом як національний ресурс і передбачає масштабні державні інвестиції в інфраструктуру штучного інтелекту.

Alibaba вже зафіксувала понад 5,4 мільйона завантажень своїх моделей глобальної мережі на Hugging Face та ModelScope, що підкреслює високий міжнародний попит на китайські рішення з відкритим кодом на основі штучного інтелекту. Компанія планує подальші інвестиції приблизно у розмірі 52 мільярдів доларів США в хмарні обчислення та інфраструктуру штучного інтелекту, щоб зміцнити свої позиції на цьому швидкозростаючому ринку.

Пов'язано з цим:

Wan2.2 здійснює прорив у відео зі штучним інтелектом: відкритий код на професійному рівні

Wan2.2 являє собою поворотний момент у створенні відео на основі штучного інтелекту, пропонуючи першу альтернативу платним, власницьким моделям з відкритим вихідним кодом, яка може конкурувати з комерційними рішеннями. Поєднання кінематографічної якості, ефективного використання апаратного забезпечення та повної доступності з відкритим вихідним кодом позиціонує модель як привабливу альтернативу для творців контенту, кінематографістів та розробників у всьому світі.

Цей реліз, ймовірно, посилить конкуренцію у сфері створення відео на базі штучного інтелекту та може спонукати інші компанії до аналогічних стратегій з відкритим кодом. Завдяки своїй здатності працювати на споживчому обладнанні та забезпечувати професійні результати, Wan2.2 має потенціал демократизувати відеовиробництво та відкрити нові творчі можливості.

Поєднуючи передові технології з філософією відкритої розробки, Alibaba встановлює нові стандарти у створенні відео на основі штучного інтелекту за допомогою Wan2.2 та утверджує Китай як провідну силу у світових інноваціях у сфері штучного інтелекту. Далекосяжні наслідки цього розвитку докорінно змінять спосіб створення та виробництва відео в найближчі роки.

Пов'язано з цим:

 

Ваш експерт у галузі трансформації, інтеграції та платформ штучного інтелекту

☑️ Наша ділова мова – англійська або німецька

☑️ НОВИНКА: Листування вашою рідною мовою!

 

Konrad Wolfenstein

Я та моя команда раді бути вашим особистим консультантом.

Ви можете зв'язатися зі мною, заповнивши контактну форму тут wolfenstein@xpert.digital:, або просто зателефонувавши мені за номером +49 7348 4088 965. Моя адреса електронної пошти

Я з нетерпінням чекаю нашого спільного проєкту.

 

 

☑️ Підтримка МСП у стратегії, консалтингу, плануванні та впровадженні

☑️ Створення або переорієнтація стратегії ШІ

☑️ Розвиток бізнесу Pioneer

Залиште мобільну версію