Icono del sitio web Xpert.Digital

El gran video de China KI Ofensivo: con Wan 2.2 Alibaba quiere adelantar a Occidente – y hace todo lo abierto de código abierto

La gran ofensiva de IA de China: con Wan 2.2 Alibaba quiere adelantar a Occidente  –  y hace todo lo abierto de código abierto

La gran ofensiva de la IA de China: con Wan 2.2 Alibaba quiere superar a Occidente – y hace todo el código abierto – Imagen: xpert.digital

Este es el nuevo Wunder-Ki Wan2.2 de Alibaba: gratis, más poderoso que la competencia y disponible para todos

La respuesta en video de China a Sora von OpenAai: esta nueva IA genera videos en calidad del cine – y también es gratuito

La compañía de tecnología china Alibaba publicó una nueva versión interesante de su modelo de video de código abierto el 29 de julio de 2025 con WAN2.2 y, por lo tanto, cambió fundamentalmente el panorama de la inteligencia artificial para la producción de video. Esta tecnología innovadora representa el primer modelo de video de código abierto del mundo que implementó una arquitectura de mezcla de expertos (MOE) y fue diseñado tanto para producciones de películas profesionales como para su uso en hardware disponible comercialmente.

Adecuado para:

Revolución tecnológica a través de la arquitectura MOE

Por primera vez, WAN2.2 presenta una arquitectura de la mezcla de expertos en los modelos devocionales de video, que es un avance tecnológico significativo. Esta arquitectura innovadora funciona con un sistema experto dual que divide el proceso de videoceoenización en dos fases especializadas. El primer experto se centra en las primeras fases de la supresión de ruido y determina el diseño básico de la escena, mientras que el segundo experto se hace cargo de las fases posteriores y refina detalles y texturas.

El sistema tiene un total de 27 mil millones de parámetros, pero activa solo 14 mil millones de parámetros por paso de inferencia, lo que reduce el esfuerzo informático en hasta un 50 por ciento sin afectar la calidad. Este aumento en la eficiencia permite que los videos de alta calidad generen, mientras que los costos informáticos permanecen constantes y al mismo tiempo se amplía la capacidad general del modelo.

Estética cinematográfica y control cinematográfico

Una característica sobresaliente de WAN2.2 es el sistema de control estético cinematográfico, que permite a los usuarios llevar a cabo un control preciso sobre varias dimensiones visuales. El modelo fue entrenado con datos estéticos cuidadosamente curados que contienen etiquetas detalladas para iluminación, composición, contraste, color, placa de cámara, tamaño de imagen, distancia focal y otros parámetros cinematográficos.

Esta funcionalidad se basa en un sistema rápido inspirado cinematográficamente que clasifica las dimensiones clave como la iluminación, la iluminación, la composición y la coloración. Como resultado, WAN2.2 puede interpretar e implementar con precisión las intenciones estéticas de los usuarios durante el proceso de generación, lo que permite la creación de videos con preferencias cinematográficas personalizables.

Datos de entrenamiento extendidos y generación de movimiento compleja

En comparación con el predecesor WAN2.1, el conjunto de datos de capacitación se amplió significativamente: 65.6 por ciento más de datos de imagen y 83.2 por ciento más de datos de video. Esta expansión masiva de datos mejora significativamente las habilidades de generalización del modelo y aumenta la diversidad creativa en varias dimensiones, como el movimiento, la semántica y la estética.

El modelo muestra mejoras significativas en la producción de movimientos complejos, que incluyen expresiones faciales animadas, gestos de mano dinámicos y movimientos deportivos complicados. Además, proporciona representaciones realistas con un mejor cumplimiento del comando y el cumplimiento de las leyes físicas, lo que conduce a secuencias de video más naturales y convincentes.

Uso y accesibilidad de hardware eficiente

WAN2.2 ofrece tres variantes de modelo diferentes que cubren diferentes requisitos y configuraciones de hardware:

  • WAN2.2-T2V-A14B: un modelo de texto a video con 27 mil millones de parámetros (14 mil millones activos), que genera videos con resolución de 720p y 16 fps.
  • WAN2.2-I2V-A14B: un modelo de imagen a video con la misma arquitectura para la conversión de imágenes estáticas en videos.
  • WAN2.2-TI2V-5B: un modelo compacto de 5 mil millones de parámetros que combina funciones de texto a video y imagen a video en un marco uniforme.

El modelo compacto TI2V-5B es un avance especial, ya que puede generar 5 segundos de 720p videos en menos de 9 minutos en una sola GPU de consumo como la RTX 4090. Esta velocidad lo convierte en uno de los modelos 720p@24fps más rápidos disponibles y permite que tanto las aplicaciones industriales como la investigación académica se beneficien de la tecnología.

Arquitectura avanzada de VAE para compresión optimizada

El modelo TI2V 5B se basa en una arquitectura VAE 3D altamente eficiente con una relación de compresión de 4 × 16 × 16, que aumenta la tasa de compresión de información total a 64. Con una capa de parche adicional, la relación de compresión total de TI2V-5B incluso alcanza 4 × 32 × 32, lo que garantiza los requisitos de videos de videos de alta calidad con los requisitos de memoria de videos minimales.

Esta tecnología de compresión avanzada permite al modelo admitir tareas de texto a video y imagen a video en un solo marco uniforme, que cubre tanto la investigación académica como las aplicaciones prácticas.

Rendimiento de referencia y posición de mercado

WAN2.2 fue probado contra modelos líderes de video de video AI comercial con la ayuda de la nueva suite de evaluación WAN-Bench 2.0, incluidas Sora, Kling 2.0 y Hailuo 02. Los resultados muestran que WAN2.2 logra el rendimiento de última generación en la mayoría de las categorías y excede sus competidores de alto nivel.

En comparación de clasificación directa, WAN2.2-T2V-A14B aseguró el primer lugar en cuatro de las seis dimensiones de referencia central, incluida la calidad estética y la dinámica de movimiento. Este desempeño establece WAN2.2 como un nuevo líder del mercado de código abierto en videoceogenerización de alta resolución.

Disponibilidad e integración de código abierto

WAN2.2 está disponible como un software de código completamente abierto bajo la licencia Apache 2.0 y se puede descargar a través de abrazando Face, GitHub y ModelsCope. Los modelos ya se han integrado en marcos populares como Comfyui y difusores, lo que permite un uso sin problemas en los flujos de trabajo existentes.

Abrazo de espacio facial está disponible para uso directo para el modelo TI2V 5B, lo que significa que los usuarios pueden probar la tecnología inmediatamente sin tener que llevar a cabo instalaciones complejas. Esta accesibilidad democratiza el acceso a la tecnología estatal de videoceogenización y promueve la innovación en toda la comunidad de desarrolladores.

Ofensiva de IA estratégica de China

La publicación de WAN2.2 es parte de una estrategia de IA de código abierto chino más amplia que ya ha atraído la atención internacional con modelos como Deepseek. Esta estrategia sigue al plan oficial de digitalización china, que ha promovido la colaboración de código abierto como un recurso nacional desde 2018 y proporciona inversiones estatales masivas en infraestructura de IA.

Alibaba ya ha registrado más de 5.4 millones de descargas de sus modelos WAN en abrazar a Face and Modelscope, lo que subraya una fuerte demanda internacional de soluciones de IA de código abierto china. La compañía está planeando más inversiones de alrededor de $ 52 mil millones en infraestructura de computación en la nube e IA para consolidar su posición en este mercado de rápido crecimiento.

Adecuado para:

WAN2.2 proporciona un avance en los videos de IA: código abierto a nivel profesional

WAN2.2 representa un punto de inflexión en la videoceoenización de IA porque ofrece la primera alternativa de código abierto para ser pagados, modelos propietarios que pueden competir con soluciones comerciales. La combinación de calidad cinematográfica, uso eficiente de hardware y disponibilidad completa de código abierto posiciona el modelo como una alternativa atractiva para fabricantes de contenido, cineastas y desarrolladores de todo el mundo.

Es probable que la publicación intensifique la competencia en el campo de la videogenización de la IA y podría hacer que otras compañías busquen estrategias de código abierto similares. Con su capacidad para ejecutar hardware de consumo y ofrecer resultados profesionales, WAN2.2 tiene el potencial de democratizar la producción de video y abrir nuevas oportunidades creativas.

A través de la combinación de tecnología avanzada con filosofía de desarrollo abierta, Alibaba con WAN2.2 establece nuevos estándares en la videoceoenización de IA y establece a China como una fuerza líder en la innovación global de IA. Los efectos de lejano a la altura de este desarrollo cambiarán la forma en que se crean y producen videos, en los próximos años.

Adecuado para:

 

Su transformación de IA, integración de IA y experto en la industria de la plataforma de IA

☑️ Nuestro idioma comercial es inglés o alemán.

☑️ NUEVO: ¡Correspondencia en tu idioma nacional!

 

Konrad Wolfenstein

Estaré encantado de servirle a usted y a mi equipo como asesor personal.

Puedes ponerte en contacto conmigo rellenando el formulario de contacto o simplemente llámame al +49 89 89 674 804 (Múnich) . Mi dirección de correo electrónico es: wolfenstein xpert.digital

Estoy deseando que llegue nuestro proyecto conjunto.

 

 

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación.

☑️ Creación o realineación de la estrategia de IA

☑️ Desarrollo empresarial pionero

Salir de la versión móvil