Опубликовано: 30 июля 2025 г. / Обновление с: 30 июля 2025 г. – Автор: Конрад Вольфенштейн
Большое наступление в Китае: с Wan 2.2 Alibaba хочет обогнать Запад – и делает все открытый исходный код – Изображение: Xpert.Digital
Это новый wunder-ki Wan2.2 от Alibaba
Видео -реакция Китая на Sora Von Openaai: этот новый AI генерирует видео в качестве кинотеатра – и также бесплатно
Китайская технологическая компания Alibaba опубликовала интересную новую версию своей модели видео с открытым исходным кодом 29 июля 2025 года с WAN2.2 и, таким образом, принципиально изменила ландшафт искусственного интеллекта для производства видео. Эта инновационная технология представляет собой первую в мире видео видеомодель с открытым исходным кодом, которая внедрила архитектуру сочетания экспертов (MOE) и была разработана как для профессиональных произведений кино, так и для использования на коммерчески доступном оборудовании.
Подходит для:
- Alibaba инвестирует более 50 миллиардов долларов в ИИ и облачные вычисления – искусственный общий интеллект (AGI) играет центральную роль
Технологическая революция через архитектуру MOE
Впервые WAN2.2 представляет архитектуру смеси экспертов в видео-моделях видео, которая является значительным технологическим прорывом. Эта инновационная архитектура работает с двойной экспертной системой, которая разделяет процесс видеогенизации на две специализированные фазы. Первый эксперт фокусируется на ранних этапах подавления шума и определяет основную планировку сцены, в то время как второй эксперт занимает более поздние фазы и уточняет детали и текстуры.
Система имеет в общей сложности 27 миллиардов параметров, но активирует только 14 миллиардов параметров на этап вывода, что снижает вычислительные усилия до 50 процентов, не влияя на качество. Это повышение эффективности позволяет генерировать высококачественные видеоролики, в то время как вычислительные затраты остаются постоянными, и в то же время общая модельная емкость расширяется.
Эстетика фильма и кинематографический контроль
Выдающейся особенностью WAN2.2 является кинематографическая эстетическая система управления, которая позволяет пользователям проводить точный контроль над различными визуальными измерениями. Модель была обучена тщательно курируемыми эстетическими данными, которые содержат подробные метки для освещения, композиции, контраста, цвета, камеры, размера изображения, фокусного расстояния и других кинематографических параметров.
Эта функциональность основана на кинематографической системе быстрого приглашения, которая классифицирует ключевые размеры, такие как освещение, освещение, композиция и окраска. В результате WAN2.2 может точно интерпретировать и реализовать эстетические намерения пользователей в ходе процесса генерации, что позволяет создавать видео с настраиваемыми кинематографическими предпочтениями.
Расширенные данные обучения и генерация сложного движения
По сравнению с предшественником WAN2.1, набор учебных данных был значительно расширен: на 65,6 процента больше данных изображения и на 83,2 процента больше видеодантеров. Это масштабное расширение данных значительно улучшает навыки обобщения модели и увеличивает творческое разнообразие в нескольких измерениях, таких как движение, семантика и эстетика.
Модель показывает значительные улучшения в производстве сложных движений, включая живые выражения лица, динамические жесты рук и сложные спортивные движения. Кроме того, он обеспечивает реалистичные представления с улучшенным соблюдением команд и соблюдением физических законов, что приводит к более естественным и убедительным видео последовательностям.
Эффективное использование оборудования и доступность
WAN2.2 предлагает три различных варианта модели, которые охватывают различные требования и конфигурации аппаратного обеспечения:
- WAN2.2-T2V-A14B: модель текста к Video с 27 миллиардами параметров (14 миллиардов активных), которая генерирует видео с разрешением 720p и 16FPS.
- WAN2.2-I2V-A14B: модель изображения к Video с той же архитектурой для превращения статических изображений в видео.
- WAN2.2-TI2V-5B: компактная модель параметров 5 миллиардов, которая объединяет функции как текста-Video, так и функции изображения-Video в однородной структуре.
Компактная модель TI2V-5B является специальным прорывом, поскольку она может генерировать 5 секунд 720p видео менее чем за 9 минут на одном потребительском графическом процессоре, таком как RTX 4090. Эта скорость делает его одной из самых быстрых доступных моделей 720p@24FPS и обеспечивает как промышленные применения, так и академические исследования, чтобы выиграть от технологии.
Усовершенствованная архитектура VAE для оптимизированного сжатия
Модель TI2V 5B основана на высокоэффективной архитектуре 3D VAE с соотношением сжатия 4 × 16 × 16, что увеличивает общую скорость сжатия информации до 64. С помощью дополнительного петлетного слоя общий коэффициент сжатия TI2V-5B даже достигает 4 × 32 × 32, что гарантирует высококачественную реконструкцию видео с минимальной памятью.
Эта передовая технология сжатия позволяет модели поддерживать задачи как текста-Video, так и задачи изображения к видео в единой единой структуре, которая охватывает как академические исследования, так и практические применения.
Эталонная производительность и позиция на рынке
WAN2.2 был протестирован на ведущие коммерческие видео-видео-видео с помощью AI-видео с помощью нового пакета оценки Wan-Bench 2.0, включая Sora, Kling 2.0 и Hailuo 02. Результаты показывают, что WAN2.2 достигает современных результатов в большинстве категорий и превышает свои конкуренты высокого уровня.
При сравнении прямого рейтинга WAN2.2-T2V-A14B завоевало первое место в четырех из шести центральных эталонных измерений, включая эстетическое качество и динамику движения. Эта производительность устанавливает WAN2.2 как нового лидера рынка с открытым исходным кодом в видеогензии с высоким разрешением.
Доступность и интеграция с открытым исходным кодом
WAN2.2 доступен в качестве полностью программного обеспечения с открытым исходным кодом по лицензии Apache 2.0 и может быть загружен с помощью обнимающего лица, GitHub и ModelsCope. Модели уже были интегрированы в популярные рамки, такие как Comfyui и Diffusers, которые позволяют беспрепятственно использовать в существующих рабочих процессах.
Объятие лица для лица доступно для прямого использования для модели TI2V 5B, что означает, что пользователи могут немедленно опробовать технологию без необходимости выполнять сложные установки. Эта доступность демократизирует доступ к технологии видеоогенции штата -Ar -Art и способствует инновациям во всем сообществе разработчиков.
Китай стратегическое наступление ИИ
Публикация WAN2.2 является частью более широкой китайской стратегии искусственного интеллекта с открытым исходным кодом, которая уже привлекла международное внимание к таким моделям, как DeepSeek. Эта стратегия следует официальному плану оцифровки Китая, который с 2018 года продвигает сотрудничество с открытым исходным кодом в качестве национального ресурса и предусматривает массовые государственные инвестиции в инфраструктуру ИИ.
Alibaba уже записал более 5,4 миллионов загрузок своих моделей WAN на обнимающееся лицо и модели, что подчеркивает сильный международный спрос на решения для искусственного интеллекта с открытым исходным кодом. Компания планирует дальнейшие инвестиции в размере около 52 миллиардов долларов в облачные вычисления и инфраструктуру искусственного интеллекта для консолидации своих позиций на этом быстро растущем рынке.
Подходит для:
WAN2.2 предоставляет прорыв на видео с искусственным интеллектом: открытый исходный код на профессиональном уровне
WAN2.2 представляет собой поворотный момент в видеоогнизации искусственного интеллекта, поскольку он предлагает первую альтернативу с открытым исходным кодом для оплаты, проприетарные модели, которые могут конкурировать с коммерческими решениями. Комбинация кинематографического качества, эффективного использования оборудования и полного предоставления доступности с открытым исходным кодом в качестве привлекательной альтернативы для производителей контента, кинематографистов и разработчиков по всему миру.
Публикация, скорее всего, усилит конкуренцию в области видеогеншизации ИИ и может привести к тому, что другие компании будут выполнять аналогичные стратегии с открытым исходным кодом. Благодаря своей способности работать на потребительском оборудовании и обеспечивать профессиональные результаты, WAN2.2 имеет потенциал для демократизации видеопроизводства и открыть новые творческие возможности.
Благодаря сочетанию передовых технологий с открытой философией развития, Alibaba с WAN2.2 устанавливает новые стандарты в видеогензии ИИ и создает Китай как ведущую силу в глобальных инновациях ИИ. Далекие эффекты этой разработки изменят способ создания и создания видео в ближайшие годы.
Подходит для:
Ваша трансформация искусственного интеллекта, интеграция ИИ и эксперт по индустрии платформ AI
☑️ Наш деловой язык — английский или немецкий.
☑️ НОВИНКА: Переписка на вашем национальном языке!
Я был бы рад служить вам и моей команде в качестве личного консультанта.
Вы можете связаться со мной, заполнив контактную форму или просто позвоните мне по телефону +49 89 89 674 804 (Мюнхен) . Мой адрес электронной почты: wolfenstein ∂ xpert.digital
Я с нетерпением жду нашего совместного проекта.