
La gran ofensiva de inteligencia artificial de China: con Wan 2.2, Alibaba pretende superar a Occidente y está haciendo que todo sea de código abierto. Imagen: Xpert.Digital
Esta es la nueva maravilla de la IA Wan2.2 de Alibaba: gratuita, más potente que la competencia y disponible para todos
La respuesta de vídeo de China a Sora de OpenAI: esta nueva IA genera vídeos con calidad cinematográfica y es gratuita
El 29 de julio de 2025, la empresa tecnológica china Alibaba lanzó Wan2.2, una nueva y emocionante versión de su modelo de generación de video de código abierto, que revolucionó el panorama de la inteligencia artificial para la producción de video. Esta innovadora tecnología representa el primer modelo de generación de video de código abierto del mundo que implementa una arquitectura de Mezcla de Expertos (MoE), diseñada tanto para la producción cinematográfica profesional como para su uso en hardware estándar.
Relacionado con esto:
- Alibaba está invirtiendo más de 50 mil millones de dólares en IA y computación en la nube: la Inteligencia Artificial General (AGI) juega un papel central
Revolución tecnológica a través de la arquitectura MoE
Wan2.2 introduce por primera vez una arquitectura de expertos mixtos en los modelos de difusión de vídeo, lo que representa un avance tecnológico significativo. Esta innovadora arquitectura emplea un sistema experto dual que divide el proceso de generación de vídeo en dos fases especializadas. El primer experto se centra en las primeras etapas de la reducción de ruido y determina la disposición básica de la escena, mientras que el segundo se encarga de las etapas posteriores, refinando los detalles y las texturas.
El sistema cuenta con un total de 27 mil millones de parámetros, pero solo activa 14 mil millones por paso de inferencia, lo que reduce el esfuerzo computacional hasta en un 50 % sin comprometer la calidad. Este aumento de eficiencia permite generar videos de alta calidad manteniendo constantes los costos computacionales y, al mismo tiempo, ampliando la capacidad total del modelo.
Estética cinematográfica y control cinematográfico
Una característica destacada de Wan2.2 es su sistema de control estético cinematográfico, que permite a los usuarios controlar con precisión diversas dimensiones visuales. El modelo se entrenó con datos estéticos cuidadosamente seleccionados, incluyendo etiquetas detalladas para iluminación, composición, contraste, tono, ángulo de cámara, tamaño de la imagen, distancia focal y otros parámetros cinematográficos.
Esta funcionalidad se basa en un sistema de indicaciones de inspiración cinematográfica que categoriza dimensiones clave como la iluminación, la composición y el color. Esto permite a Wan2.2 interpretar e implementar con precisión las intenciones estéticas del usuario durante el proceso de generación, lo que permite crear vídeos con preferencias cinematográficas personalizables.
Datos de entrenamiento avanzados y generación de movimientos complejos
En comparación con su predecesor, Wan2.1, el conjunto de datos de entrenamiento se ha ampliado significativamente: un 65,6 % más de datos de imagen y un 83,2 % más de datos de vídeo. Esta enorme expansión de datos mejora considerablemente la capacidad de generalización del modelo y aumenta la diversidad creativa en múltiples dimensiones, como el movimiento, la semántica y la estética.
El modelo muestra mejoras significativas en la generación de movimientos complejos, incluyendo expresiones faciales realistas, gestos dinámicos con las manos y movimientos atléticos intrincados. Además, ofrece representaciones realistas con mayor obediencia a las órdenes y cumplimiento de las leyes físicas, lo que resulta en secuencias de vídeo más naturales y convincentes.
Utilización eficiente del hardware y accesibilidad
Wan2.2 ofrece tres variantes de modelo diferentes que cubren diferentes requisitos y configuraciones de hardware:
- Wan2.2-T2V-A14B: un modelo de texto a video con 27 mil millones de parámetros (14 mil millones activos) que genera videos con una resolución de 720p y 16 fps.
- Wan2.2-I2V-A14B: Un modelo de imagen a vídeo con la misma arquitectura para convertir imágenes estáticas en vídeos.
- Wan2.2-TI2V-5B: un modelo compacto de 5 mil millones de parámetros que combina funciones de texto a video y de imagen a video en un marco unificado.
El modelo compacto TI2V-5B representa un avance significativo, ya que puede generar videos de 5 segundos y 720p en menos de 9 minutos con una sola GPU de consumo como la RTX 4090. Esta velocidad lo convierte en uno de los modelos de 720p a 24 fps más rápidos disponibles, lo que permite que tanto las aplicaciones industriales como la investigación académica se beneficien de esta tecnología.
Arquitectura avanzada de los EAU para una compresión optimizada
El modelo TI2V-5B se basa en una arquitectura VAE 3D de alta eficiencia con una relación de compresión de 4×16×16, lo que aumenta la tasa de compresión de información general a 64. Con una capa de parcheo adicional, la relación de compresión general del TI2V-5B incluso alcanza 4×32×32, lo que garantiza una reconstrucción de video de alta calidad con requisitos mínimos de almacenamiento.
Esta tecnología de compresión avanzada permite que el modelo admita de forma nativa tareas de conversión de texto a vídeo y de imagen a vídeo en un único marco unificado, que abarca tanto la investigación académica como las aplicaciones prácticas.
Rendimiento de referencia y posición en el mercado
Wan2.2 se probó con los principales modelos comerciales de generación de video con IA, como Sora, KLING 2.0 y Hailuo 02, utilizando la nueva suite de evaluación Wan-Bench 2.0. Los resultados muestran que Wan2.2 alcanza un rendimiento de vanguardia en la mayoría de las categorías y supera a sus competidores de alto nivel.
En comparaciones directas de clasificación, Wan2.2-T2V-A14B obtuvo el primer puesto en cuatro de las seis dimensiones clave del benchmark, incluyendo las áreas críticas de calidad estética y dinámica de movimiento. Este logro consolida a Wan2.2 como el nuevo líder del mercado de código abierto en generación de video de alta resolución.
Disponibilidad e integración de código abierto
Wan2.2 está disponible como software de código abierto bajo la licencia Apache 2.0 y se puede descargar desde Hugging Face, GitHub y ModelScope. Los modelos ya están integrados en frameworks populares como ComfyUI y Diffusers, lo que permite un uso fluido en flujos de trabajo existentes.
El modelo TI2V-5B cuenta con un Hugging Face Space listo para usar, que permite a los usuarios probar la tecnología de inmediato sin necesidad de instalaciones complejas. Esta accesibilidad democratiza el acceso a la tecnología de generación de video de vanguardia y fomenta la innovación en la comunidad de desarrolladores.
La ofensiva estratégica de inteligencia artificial de China
El lanzamiento de Wan2.2 forma parte de una estrategia china más amplia de IA de código abierto que ya ha captado la atención internacional con modelos como DeepSeek. Esta estrategia se alinea con el plan oficial de digitalización de China, que promueve la colaboración de código abierto como un recurso nacional desde 2018 y prevé una inversión gubernamental masiva en infraestructura de IA.
Alibaba ya ha registrado más de 5,4 millones de descargas de sus modelos wan en Hugging Face y ModelScope, lo que subraya la fuerte demanda internacional de soluciones chinas de IA de código abierto. La compañía planea invertir aproximadamente 52 000 millones de dólares en computación en la nube e infraestructura de IA para consolidar su posición en este mercado en rápido crecimiento.
Relacionado con esto:
Wan2.2 supone un gran avance en los vídeos con IA: código abierto a nivel profesional
Wan2.2 representa un punto de inflexión en la generación de vídeo con IA, ofreciendo la primera alternativa de código abierto a los modelos propietarios de pago, capaz de competir con las soluciones comerciales. La combinación de calidad cinematográfica, uso eficiente del hardware y disponibilidad total de código abierto posiciona al modelo como una alternativa atractiva para creadores de contenido, cineastas y desarrolladores de todo el mundo.
Es probable que este lanzamiento intensifique la competencia en el campo de la generación de video con IA y podría animar a otras empresas a adoptar estrategias similares de código abierto. Gracias a su capacidad para ejecutarse en hardware de consumo y ofrecer resultados profesionales, Wan2.2 tiene el potencial de democratizar la producción de video y abrir nuevas posibilidades creativas.
Al combinar tecnología avanzada con una filosofía de desarrollo abierta, Alibaba establece nuevos estándares en la generación de video con IA con Wan2.2 y consolida a China como una potencia líder en la innovación global en IA. Las profundas implicaciones de este desarrollo transformarán radicalmente la forma de crear y producir videos en los próximos años.
Relacionado con esto:
Su experto en la industria de la transformación de la IA, la integración de la IA y las plataformas de IA
☑️ Nuestro idioma comercial es el inglés o el alemán
☑️ NUEVO: ¡Correspondencia en tu idioma nativo!
Mi equipo y yo estaremos encantados de estar disponibles para usted como su asesor personal.
Puedes contactarme rellenando el formulario de contacto aquí wolfenstein@xpert.digital:o simplemente llamándome al +49 7348 4088 965. Mi dirección de correo electrónico es
Espero con ilusión nuestro proyecto conjunto.
