иконка веб-сайта Xpert.Digital

Китай проводит масштабное наступление в сфере видеоискусственного интеллекта: с помощью Wan 2.2 Alibaba стремится обогнать Запад и делает весь свой код открытым

Китай предпринимает масштабную попытку наступления в сфере искусственного интеллекта: с помощью Wan 2.2 Alibaba стремится обогнать Запад и делает весь свой проект открытым

Китайская масштабная кампания в области ИИ: с помощью Wan 2.2 Alibaba стремится обогнать Запад и делает все проекты открытыми. Изображение: Xpert.Digital

Это новое чудо-решение Alibaba на основе искусственного интеллекта Wan2.2: бесплатное, более мощное, чем у конкурентов, и доступное каждому

Китайский видеоаналог Sora от OpenAI: этот новый ИИ генерирует видео кинематографического качества — и это бесплатно

29 июля 2025 года китайская технологическая компания Alibaba выпустила Wan2.2, новую захватывающую версию своей модели генерации видео с открытым исходным кодом, коренным образом меняющую ландшафт искусственного интеллекта для видеопроизводства. Эта инновационная технология представляет собой первую в мире модель генерации видео с открытым исходным кодом, реализующую архитектуру «смешанных экспертов» (Mixture-of-Experts, MoE), разработанную как для профессионального кинопроизводства, так и для использования на стандартном оборудовании.

В связи с этим:

Технологическая революция посредством архитектуры Министерства образования

Wan2.2 впервые представляет архитектуру, сочетающую экспертов, для моделей распространения видео, что является значительным технологическим прорывом. Эта инновационная архитектура использует систему с двумя экспертами, которая разделяет процесс генерации видео на две специализированные фазы. Первый эксперт фокусируется на ранних этапах шумоподавления и определяет базовую структуру сцены, в то время как второй эксперт занимается более поздними этапами, уточняя детали и текстуры.

Система имеет в общей сложности 27 миллиардов параметров, но активирует только 14 миллиардов параметров на каждом этапе вывода, что снижает вычислительные затраты до 50 процентов без ущерба для качества. Такое повышение эффективности позволяет создавать высококачественные видеоролики, сохраняя при этом вычислительные затраты на постоянном уровне и одновременно расширяя общую мощность модели.

Киноэстетика и кинематографический контроль

Одной из отличительных особенностей Wan2.2 является система управления кинематографической эстетикой, позволяющая пользователям точно контролировать различные визуальные параметры. Модель была обучена на тщательно подобранных эстетических данных, включая подробные метки для освещения, композиции, контраста, оттенка, ракурса камеры, размера изображения, фокусного расстояния и других кинематографических параметров.

Эта функциональность основана на системе подсказок, вдохновленной кинематографом, которая классифицирует ключевые параметры, такие как освещение, подсветка, композиция и цвет. Это позволяет Wan2.2 точно интерпретировать и реализовывать эстетические замыслы пользователя в процессе генерации, что позволяет создавать видеоролики с настраиваемыми кинематографическими предпочтениями.

Расширенные обучающие данные и генерация сложных движений

По сравнению со своим предшественником, Wan2.1, обучающий набор данных был значительно расширен: на 65,6% больше данных изображений и на 83,2% больше данных видео. Это масштабное расширение данных значительно улучшает обобщающие возможности модели и увеличивает творческое разнообразие по нескольким параметрам, таким как движение, семантика и эстетика.

Модель демонстрирует значительные улучшения в генерации сложных движений, включая реалистичные выражения лица, динамичные жесты рук и замысловатые спортивные движения. Кроме того, она обеспечивает реалистичную визуализацию с улучшенным подчинением командам и соблюдением физических законов, что приводит к более естественным и убедительным видеопоследовательностям.

Эффективное использование оборудования и доступность

Wan2.2 предлагает три различных варианта моделей, отвечающих различным требованиям и конфигурациям оборудования:

  • Wan2.2-T2V-A14B: Модель преобразования текста в видео с 27 миллиардами параметров (14 миллиардов активных), генерирующая видео с разрешением 720p и частотой 16 кадров в секунду.
  • Wan2.2-I2V-A14B: Модель преобразования изображений в видео, имеющая ту же архитектуру, что и для преобразования статических изображений в видео.
  • Wan2.2-TI2V-5B: Компактная модель с 5 миллиардами параметров, объединяющая функции преобразования текста в видео и изображения в видео в единой системе.

Компактная модель TI2V-5B представляет собой значительный прорыв, поскольку она способна генерировать 5-секундные видеоролики в разрешении 720p менее чем за 9 минут на одном потребительском графическом процессоре, таком как RTX 4090. Эта скорость делает её одной из самых быстрых моделей, работающих с разрешением 720p при 24 кадрах в секунду, что позволяет использовать эту технологию как в промышленных приложениях, так и в академических исследованиях.

Усовершенствованная архитектура ОАЭ для оптимизированного сжатия

Модель TI2V-5B основана на высокоэффективной 3D VAE-архитектуре с коэффициентом сжатия 4×16×16, что увеличивает общую степень сжатия информации до 64. Благодаря дополнительному слою патчинга, общий коэффициент сжатия TI2V-5B достигает 4×32×32, обеспечивая высококачественную реконструкцию видео с минимальными требованиями к хранению.

Эта передовая технология сжатия позволяет модели изначально поддерживать задачи преобразования текста в видео и изображений в видео в рамках единой, унифицированной структуры, охватывающей как академические исследования, так и практические приложения.

Показатели эффективности и рыночная позиция

Wan2.2 был протестирован в сравнении с ведущими коммерческими моделями генерации видео на основе ИИ, включая Sora, KLING 2.0 и Hailuo 02, с использованием нового оценочного пакета Wan-Bench 2.0. Результаты показывают, что Wan2.2 демонстрирует самые современные показатели в большинстве категорий и превосходит своих высококлассных конкурентов.

В прямых сравнительных рейтингах Wan2.2-T2V-A14B занял первое место по четырем из шести ключевых параметров, включая такие важные области, как эстетическое качество и динамика движения. Это достижение утверждает Wan2.2 в качестве нового лидера рынка открытого программного обеспечения для генерации видео высокого разрешения.

Доступность и интеграция с открытым исходным кодом

Wan2.2 распространяется как полностью открытое программное обеспечение под лицензией Apache 2.0 и может быть загружено с Hugging Face, GitHub и ModelScope. Модели уже интегрированы в популярные фреймворки, такие как ComfyUI и Diffusers, что обеспечивает беспрепятственное использование в существующих рабочих процессах.

Модель TI2V-5B оснащена готовым к использованию модулем Hugging Face Space, позволяющим пользователям сразу же опробовать технологию без сложной установки. Такая доступность демократизирует доступ к передовым технологиям генерации видео и способствует инновациям в сообществе разработчиков.

Стратегическое наступление Китая в области искусственного интеллекта

Выпуск Wan2.2 является частью более широкой китайской стратегии развития ИИ с открытым исходным кодом, которая уже привлекла международное внимание благодаря таким моделям, как DeepSeek. Эта стратегия соответствует официальному плану цифровизации Китая, который с 2018 года продвигает сотрудничество в области открытого программного обеспечения как национальный ресурс и предусматривает масштабные государственные инвестиции в инфраструктуру ИИ.

Alibaba уже зафиксировала более 5,4 миллионов загрузок своих моделей WAN на платформах Hugging Face и ModelScope, что подчеркивает высокий международный спрос на китайские решения в области искусственного интеллекта с открытым исходным кодом. Компания планирует дальнейшие инвестиции в размере около 52 миллиардов долларов в облачные вычисления и инфраструктуру ИИ для укрепления своих позиций на этом быстрорастущем рынке.

В связи с этим:

WAN2.2 совершает прорыв в области видео с использованием ИИ: открытый исходный код на профессиональном уровне

Wan2.2 представляет собой поворотный момент в создании видео с помощью ИИ, предлагая первую альтернативу платным проприетарным моделям с открытым исходным кодом, способную конкурировать с коммерческими решениями. Сочетание кинематографического качества, эффективного использования оборудования и полной доступности открытого исходного кода делает эту модель привлекательной альтернативой для создателей контента, кинематографистов и разработчиков по всему миру.

Выпуск Wan2.2, вероятно, усилит конкуренцию в области создания видео с использованием искусственного интеллекта и может побудить другие компании к разработке аналогичных стратегий с открытым исходным кодом. Благодаря возможности работы на потребительском оборудовании и обеспечению профессиональных результатов, Wan2.2 имеет потенциал демократизировать производство видео и открыть новые творческие возможности.

Сочетая передовые технологии с философией открытой разработки, Alibaba устанавливает новые стандарты в создании видео с помощью ИИ благодаря Wan2.2 и утверждает Китай в качестве ведущей силы в глобальных инновациях в области ИИ. Далеко идущие последствия этого развития коренным образом изменят способы создания и производства видео в ближайшие годы.

В связи с этим:

 

Ваш эксперт в области трансформации с помощью ИИ, интеграции ИИ и создания платформ искусственного интеллекта

☑️ Язык ведения нашего бизнеса — английский или немецкий

☑️ НОВИНКА: Переписка на вашем родном языке!

 

Konrad Wolfenstein

Я и моя команда будем рады быть вашими личными консультантами.

Вы можете связаться со мной, заполнив контактную форму здесь wolfenstein@xpert.digital:или просто позвонив по номеру +49 7348 4088 965. Мой адрес электронной почты

Я с нетерпением жду начала нашего совместного проекта.

 

 

☑️ Поддержка малых и средних предприятий в области стратегии, консалтинга, планирования и реализации проектов

☑️ Создание или корректировка стратегии в области ИИ

☑️ Развитие новаторского бизнеса

Оставьте мобильную версию