Publicado em: 30 de julho de 2025 / atualização de: 30 de julho de 2025 – Autor: Konrad Wolfenstein
A grande ofensiva da IA da China: com Wan 2.2 Alibaba quer ultrapassar o oeste – e faz todo o código aberto – Imagem: Xpert.Digital
Este é o novo Wunder-Ki Wan2.2 do Alibaba: livre, mais poderoso que a competição e disponível para todos
Resposta em vídeo da China a Sora von OpenAai: Esta nova IA gera vídeos em qualidade do cinema – e também é gratuito
A empresa de tecnologia chinesa Alibaba publicou uma nova versão interessante de seu modelo de vídeo de código aberto em 29 de julho de 2025 com WAN2.2 e, portanto, mudou fundamentalmente o cenário da inteligência artificial para produção de vídeo. Essa tecnologia inovadora representa o primeiro modelo de vídeo de código aberto do mundo, que implementou uma arquitetura de mistura de especialistas (MOE) e foi projetado para produções de filmes profissionais e para uso em hardware disponível comercialmente.
Adequado para:
- Alibaba investe mais de US $ 50 bilhões em IA e computação em nuvem – a inteligência geral artificial (AGI) desempenha um papel central
Revolução tecnológica através da arquitetura MOE
Pela primeira vez, o WAN2.2 apresenta uma arquitetura de mistura de especialistas em modelos devocionais de vídeo, que é um avanço tecnológico significativo. Essa arquitetura inovadora trabalha com um sistema especialista duplo que divide o processo de vídeoogeneização em duas fases especializadas. O primeiro especialista se concentra nas fases iniciais da supressão de ruído e determina o layout básico da cena, enquanto o segundo especialista assume as fases posteriores e refina detalhes e texturas.
O sistema possui um total de 27 bilhões de parâmetros, mas ativa apenas 14 bilhões de parâmetros por etapa da inferência, o que reduz o esforço de computação em até 50 % sem afetar a qualidade. Esse aumento na eficiência permite gerar vídeos de alta qualidade, enquanto os custos de computação permanecem constantes e, ao mesmo tempo, a capacidade geral do modelo é expandida.
Estética do filme e controle cinematográfico
Uma característica excelente do WAN2.2 é o sistema de controle estético cinematográfico, que permite que os usuários realizem controle preciso sobre várias dimensões visuais. O modelo foi treinado com dados estéticos cuidadosamente selecionados que contêm rótulos detalhados para iluminação, composição, contraste, cor, hob da câmera, tamanho da imagem, distância focal e outros parâmetros cinematográficos.
Essa funcionalidade é baseada em um sistema imediato inspirado cinematicamente que categoriza as principais dimensões, como iluminação, iluminação, composição e coloração. Como resultado, o WAN2.2 pode interpretar e implementar com precisão as intenções estéticas dos usuários durante o processo de geração, o que permite a criação de vídeos com preferências cinematográficas personalizáveis.
Dados de treinamento estendidos e geração complexa de movimento
Comparado ao antecessor WAN2.1, o conjunto de dados de treinamento foi significativamente expandido: 65,6 % mais dados de imagem e 83,2 % mais dados de vídeo. Essa expansão maciça de dados melhora significativamente as habilidades de generalização do modelo e aumenta a diversidade criativa em várias dimensões, como movimento, semântica e estética.
O modelo mostra melhorias significativas na produção de movimentos complexos, incluindo expressões faciais animadas, gestos dinâmicos das mãos e movimentos esportivos complicados. Além disso, fornece representações realistas com melhor conformidade com o comando e conformidade com as leis físicas, o que leva a sequências de vídeo mais naturais e convincentes.
Uso eficiente de hardware e acessibilidade
O WAN2.2 oferece três variantes de modelos diferentes que cobrem diferentes requisitos e configurações de hardware:
- WAN2.2-T2V-A14B: Um modelo de texto para vídeo com 27 bilhões de parâmetros (14 bilhões de ativos), que gera vídeos com resolução de 720p e 16fps.
- WAN2.2-I2V-A14B: Um modelo de imagem para vídeo com a mesma arquitetura para a conversão de imagens estáticas em vídeos.
- WAN2.2-TI2V-5B: Um modelo compacto de 5 bilhões de parâmetros que combina as funções de texto para videão e de imagem para video em uma estrutura uniforme.
O modelo compacto TI2V-5B é um avanço especial, pois pode gerar vídeos de 5 segundos de 720p em menos de 9 minutos em uma única GPU de consumidor como o RTX 4090. Essa velocidade o torna um dos modelos 720p@24FPs mais rápidos e permite aplicações industriais e pesquisas acadêmicas para se beneficiar da tecnologia.
Arquitetura avançada de VAE para compactação otimizada
O modelo Ti2V 5B é baseado em uma arquitetura 3D VAE altamente eficiente com uma taxa de compressão de 4 × 16 × 16, o que aumenta a taxa total de compressão de informações para 64. Com uma camada adicional de patificação, a taxa de compressão total de Ti2V-5b atinge 4 × 32 × 32, que garante a alta qualidade-realidade, a recompensa de video reconte a 42 × 32.
Essa tecnologia de compactação avançada permite que o modelo suportem tarefas de texto para vídeo e imagem para video em uma estrutura única e uniforme, que abrange pesquisas acadêmicas e aplicações práticas.
Desempenho de referência e posição de mercado
O WAN2.2 foi testado contra os principais modelos comerciais de vídeo da IA com a ajuda do novo conjunto de avaliação WAN-Bench 2.0, incluindo Sora, Kling 2.0 e Hailuo 02. Os resultados mostram que o WAN2.2 atinge o desempenho de ponta na maioria das categorias e excede seus competidores de alto nível.
Na comparação de classificação direta, o WAN2.2-T2V-A14B garantiu o primeiro lugar em quatro das seis dimensões centrais de benchmark, incluindo qualidade estética e dinâmica de movimento. Esse desempenho estabelece o WAN2.2 como um novo líder de mercado de código aberto em videogenização de alta resolução.
Disponibilidade e integração de código aberto
O WAN2.2 está disponível como um software de código aberto completamente sob a licença Apache 2.0 e pode ser baixado através de Hugging Face, Github e ModelsCope. Os modelos já foram integrados a estruturas populares, como conformamente e difusores, o que permite o uso perfeito nos fluxos de trabalho existentes.
Abraçar o espaço do rosto está disponível para uso direto para o modelo Ti2V 5B, o que significa que os usuários podem experimentar a tecnologia imediatamente sem precisar realizar instalações complexas. Essa acessibilidade democratiza o acesso ao Estado -o -Ot -art Technology e promove a inovação em toda a comunidade de desenvolvedores.
Ofensiva estratégica de IA da China
A publicação do WAN2.2 faz parte de uma estratégia de IA de código aberto mais amplo que já atraiu atenção internacional com modelos como Deepseek. Essa estratégia segue o plano oficial de digitalização chinês, que promove a colaboração de código aberto como um recurso nacional desde 2018 e prevê investimentos estatais maciços em infraestrutura de IA.
Alibaba já registrou mais de 5,4 milhões de downloads de seus modelos WAN em abraçar o rosto e o modelos, que sublinha a forte demanda internacional por soluções de IA de código aberto chinês. A empresa está planejando investimentos adicionais de cerca de US $ 52 bilhões em computação em nuvem e infraestrutura de IA para consolidar sua posição neste mercado em rápido crescimento.
Adequado para:
Wan2.2 fornece um avanço nos vídeos da IA: código aberto em nível profissional
O WAN2.2 representa um ponto de virada na videogenização da IA porque oferece a primeira alternativa de código aberto a ser pago, modelos proprietários que podem competir com soluções comerciais. A combinação de qualidade cinematográfica, uso eficiente de hardware e posições completas de disponibilidade de código aberto do modelo como uma alternativa atraente para fabricantes de conteúdo, cineastas e desenvolvedores em todo o mundo.
É provável que a publicação intensifique a concorrência no campo da vídeoogeneização de IA e pode fazer com que outras empresas busquem estratégias de código aberto semelhantes. Com sua capacidade de executar o hardware do consumidor e fornecer resultados profissionais, o WAN2.2 tem o potencial de democratizar a produção de vídeo e abrir novas oportunidades criativas.
Através da combinação de tecnologia avançada com filosofia de desenvolvimento aberto, o Alibaba com Wan2.2 define novos padrões na videogeneização da IA e estabelece a China como uma força líder na inovação global da IA. Os efeitos distantes desse desenvolvimento mudarão a maneira como os vídeos são criados e produzidos, nos próximos anos.
Adequado para:
Sua transformação de IA, integração de IA e especialista do setor de plataforma de IA
☑️ Nosso idioma comercial é inglês ou alemão
☑️ NOVO: Correspondência em seu idioma nacional!
Ficarei feliz em servir você e minha equipe como consultor pessoal.
Você pode entrar em contato comigo preenchendo o formulário de contato ou simplesmente ligando para +49 89 89 674 804 (Munique) . Meu endereço de e-mail é: wolfenstein ∂ xpert.digital
Estou ansioso pelo nosso projeto conjunto.