Available in 27 languages 📢
Xpert.Digital bei Google bevorzugen

Голямата офанзива на Китай за видео с изкуствен интелект: С Wan 2.2, Alibaba се стреми да изпревари Запада – и прави всичко с отворен код

Публикувано на: 30 юли 2025 г. / Актуализирано на: 30 юли 2025 г. – Автор: Konrad Wolfenstein

Голямата офанзива на Китай в областта на изкуствения интелект: С Wan 2.2, Alibaba се стреми да изпревари Запада – и прави всичко с отворен код

Голямата офанзива на Китай в областта на изкуствения интелект: С Wan 2.2, Alibaba се стреми да изпревари Запада – и прави всичко с отворен код – Изображение: Xpert.Digital

Това е новото чудо на Alibaba - изкуственият интелект Wan2.2: Безплатно, по-мощно от конкуренцията и достъпно за всички

Видео отговорът на Китай на Sora на OpenAI: Този нов изкуствен интелект генерира видеоклипове с кинематографично качество – и е безплатен

На 29 юли 2025 г. китайската технологична компания Alibaba пусна Wan2.2, вълнуваща нова версия на своя модел за генериране на видео с отворен код, променяйки фундаментално пейзажа на изкуствения интелект за видео продукция. Тази иновативна технология представлява първият в света модел за генериране на видео с отворен код, който имплементира архитектура на смес от експерти (MoE), предназначена както за професионално филмово производство, така и за използване на готов хардуер.

Свързано с това:

Технологична революция чрез архитектурата на Министерството на образованието

Wan2.2 въвежда за първи път архитектура със смесена експертна система в моделите за видеодифузия, което представлява значителен технологичен пробив. Тази иновативна архитектура използва двойна експертна система, която разделя процеса на генериране на видео на две специализирани фази. Първият експерт се фокусира върху ранните етапи на намаляване на шума и определя основното оформление на сцената, докато вторият експерт обработва по-късните етапи, като усъвършенства детайлите и текстурите.

Системата има общо 27 милиарда параметъра, но активира само 14 милиарда параметъра на стъпка на извод, което намалява изчислителните усилия с до 50 процента, без да се прави компромис с качеството. Това повишаване на ефективността прави възможно генерирането на висококачествени видеоклипове, като същевременно се поддържат постоянни изчислителни разходи и едновременно с това се разширява общият капацитет на модела.

Филмова естетика и кинематографичен контрол

Отличителна черта на Wan2.2 е неговата система за кинематографичен естетически контрол, която позволява на потребителите да упражняват прецизен контрол върху различни визуални измерения. Моделът е обучен върху внимателно подбрани естетически данни, включително подробни етикети за осветление, композиция, контраст, нюанс, ъгъл на камерата, размер на изображението, фокусно разстояние и други кинематографични параметри.

Тази функционалност е базирана на кинематографично вдъхновена система за подсказки, която категоризира ключови измерения като осветление, илюминация, композиция и цвят. Това позволява на Wan2.2 прецизно да интерпретира и реализира естетическите намерения на потребителя по време на процеса на генериране, което дава възможност за създаване на видеоклипове с персонализируеми кинематографични предпочитания.

Разширени данни за обучение и генериране на сложни движения

В сравнение с предшественика си, Wan2.1, наборът от данни за обучение е значително разширен: с 65,6% повече данни за изображения и с 83,2% повече видео данни. Това мащабно разширение на данните значително подобрява възможностите за обобщение на модела и увеличава творческото разнообразие в множество измерения, като движение, семантика и естетика.

Моделът показва значителни подобрения в генерирането на сложни движения, включително реалистични изражения на лицето, динамични жестове с ръце и сложни атлетични движения. Освен това, той предоставя реалистични рендери с подобрено подчинение на командите и спазване на физичните закони, което води до по-естествени и убедителни видео последователности.

Ефективно използване на хардуера и достъпност

Wan2.2 предлага три различни варианта на модела, които покриват различни изисквания и хардуерни конфигурации:

  • Wan2.2-T2V-A14B: Модел за преобразуване на текст във видео с 27 милиарда параметъра (14 милиарда активни), който генерира видеоклипове с резолюция 720p и 16 кадъра в секунда.
  • Wan2.2-I2V-A14B: Модел за преобразуване на изображение във видео със същата архитектура за преобразуване на статични изображения във видеоклипове.
  • Wan2.2-TI2V-5B: Компактен модел с 5 милиарда параметъра, който комбинира функциите за преобразуване на текст във видео и изображения във видео в унифицирана рамка.

Компактният модел TI2V-5B представлява значителен пробив, тъй като може да генерира 5-секундни 720p видеоклипове за по-малко от 9 минути на един потребителски графичен процесор, като например RTX 4090. Тази скорост го прави един от най-бързите 720p@24fps модели на пазара, което позволява както на индустриални приложения, така и на академични изследвания да се възползват от технологията.

Усъвършенствана UAE архитектура за оптимизирана компресия

Моделът TI2V-5B е базиран на високоефективна 3D VAE архитектура със степен на компресия 4×16×16, увеличавайки общата степен на компресия на информацията до 64. С допълнителен слой за корекция, общата степен на компресия на TI2V-5B достига дори 4×32×32, осигурявайки висококачествена реконструкция на видео с минимални изисквания за съхранение.

Тази усъвършенствана технология за компресия позволява на модела да поддържа както задачи за преобразуване на текст във видео, така и за преобразуване на изображения във видео в единна, унифицирана рамка, обхващаща както академични изследвания, така и практически приложения.

Бенчмарк резултати и пазарна позиция

Wan2.2 беше тестван спрямо водещи търговски модели за генериране на видео с изкуствен интелект, включително Sora, KLING 2.0 и Hailuo 02, използвайки новия пакет за оценка Wan-Bench 2.0. Резултатите показват, че Wan2.2 постига най-съвременна производителност в повечето категории и превъзхожда конкурентите си от високо ниво.

При директни сравнения на класирането, Wan2.2-T2V-A14B си осигури първо място в четири от шестте ключови показателя, включително критичните области на естетическо качество и динамика на движението. Това постижение утвърждава Wan2.2 като новия лидер на пазара на отворен код за генериране на видео с висока резолюция.

Наличност и интеграция с отворен код

Wan2.2 е достъпен като напълно софтуер с отворен код под лиценза Apache 2.0 и може да бъде изтеглен от Hugging Face, GitHub и ModelScope. Моделите вече са интегрирани в популярни рамки като ComfyUI и Diffusers, което позволява безпроблемно използване в съществуващи работни процеси.

Моделът TI2V-5B разполага с готово за употреба пространство за прегръщане на лице, което позволява на потребителите веднага да изпробват технологията без сложни инсталации. Тази достъпност демократизира достъпа до авангардна технология за генериране на видео и насърчава иновациите в общността на разработчиците.

Стратегическата офанзива на Китай с изкуствен интелект

Пускането на Wan2.2 е част от по-широка китайска стратегия за изкуствен интелект с отворен код, която вече привлече международно внимание с модели като DeepSeek. Тази стратегия е в съответствие с официалния план за дигитализация на Китай, който насърчава сътрудничеството с отворен код като национален ресурс от 2018 г. насам и предвижда мащабни държавни инвестиции в инфраструктура за изкуствен интелект.

Alibaba вече е регистрирала над 5,4 милиона изтегляния на своите WAN модели в Hugging Face и ModelScope, което подчертава силното международно търсене на китайски решения с отворен код за изкуствен интелект. Компанията планира допълнителни инвестиции от приблизително 52 милиарда долара в облачни изчисления и инфраструктура за изкуствен интелект, за да затвърди позицията си на този бързо развиващ се пазар.

Свързано с това:

Wan2.2 води до пробив във видеоклиповете с изкуствен интелект: Отворен код на професионално ниво

Wan2.2 представлява повратна точка в генерирането на видео с изкуствен интелект, предлагайки първата алтернатива с отворен код на платените, собствени модели, която може да се конкурира с търговските решения. Комбинацията от кинематографично качество, ефективно използване на хардуера и пълна наличност на отворен код позиционира модела като привлекателна алтернатива за създатели на съдържание, режисьори и разработчици по целия свят.

Пускането на пазара вероятно ще засили конкуренцията в областта на генерирането на видео, задвижвано от изкуствен интелект, и би могло да насърчи други компании да преследват подобни стратегии с отворен код. Със способността си да работи на потребителски хардуер и да предоставя професионални резултати, Wan2.2 има потенциала да демократизира видеопродукцията и да отключи нови творчески възможности.

Чрез комбиниране на съвременни технологии с философия за отворено развитие, Alibaba поставя нови стандарти в генерирането на видео с изкуствен интелект с Wan2.2 и утвърждава Китай като водеща сила в световните иновации в областта на изкуствения интелект. Дългосрочните последици от това развитие ще променят коренно начина, по който се създават и продуцират видеоклипове през следващите години.

Свързано с това:

 

Вашият експерт в индустрията за трансформация, интеграция и платформи с изкуствен интелект

☑️ Нашият бизнес език е английски или немски

☑️ НОВО: Кореспонденция на родния ви език!

 

Дигитален пионер - Konrad Wolfenstein

Konrad Wolfenstein

Аз и моят екип с удоволствие ще бъдем на ваше разположение като ваш личен съветник.

Можете да се свържете с мен, като попълните формата за контакт тук или просто ми се обадите на +49 89 89 674 804 ( Мюнхен) . Моят имейл адрес е: [email protected]

Очаквам с нетърпение нашия съвместен проект.

 

 

☑️ Подкрепа за МСП в стратегията, консултирането, планирането и внедряването

☑️ Създаване или пренасочване на стратегията за ИИ

☑️ Pioneer Business Development


⭐️ Изкуствен интелект (ИИ) - Блог за ИИ, гореща точка и център за съдържание ⭐️ XPaper