Ícone do site Especialista.Digital

A grande ofensiva da China em IA para vídeos: Com o Wan 2.2, a Alibaba pretende ultrapassar o Ocidente – e está tornando tudo de código aberto

A grande ofensiva da China em IA: Com o Wan 2.2, o Alibaba pretende ultrapassar o Ocidente – e está tornando tudo de código aberto

A grande ofensiva da China em IA: Com o Wan 2.2, a Alibaba pretende ultrapassar o Ocidente – e está tornando tudo de código aberto – Imagem: Xpert.Digital

Esta é a nova maravilha da Alibaba, a IA Wan2.2: gratuita, mais poderosa que a concorrência e disponível para todos

A resposta da China em vídeo ao Sora da OpenAI: esta nova IA gera vídeos com qualidade cinematográfica – e é gratuita

Em 29 de julho de 2025, a empresa chinesa de tecnologia Alibaba lançou o Wan2.2, uma nova e empolgante versão de seu modelo de geração de vídeo de código aberto, que está mudando fundamentalmente o cenário da inteligência artificial para produção de vídeo. Essa tecnologia inovadora representa o primeiro modelo de geração de vídeo de código aberto do mundo a implementar uma arquitetura de Mistura de Especialistas (MoE), projetada tanto para produção cinematográfica profissional quanto para uso em hardware comercial.

Relacionado a isto:

Revolução tecnológica através da arquitetura do Ministério da Educação

O Wan2.2 introduz, pela primeira vez, uma arquitetura de combinação de especialistas em modelos de difusão de vídeo, representando um avanço tecnológico significativo. Essa arquitetura inovadora emprega um sistema de especialistas duplo que divide o processo de geração de vídeo em duas fases especializadas. O primeiro especialista concentra-se nos estágios iniciais de redução de ruído e determina o layout básico da cena, enquanto o segundo especialista lida com os estágios posteriores, refinando detalhes e texturas.

O sistema possui um total de 27 bilhões de parâmetros, mas ativa apenas 14 bilhões de parâmetros por etapa de inferência, reduzindo o esforço computacional em até 50% sem comprometer a qualidade. Esse aumento de eficiência possibilita a geração de vídeos de alta qualidade, mantendo os custos computacionais constantes e, simultaneamente, expandindo a capacidade geral do modelo.

Estética cinematográfica e controle cinematográfico

Um dos principais diferenciais do Wan2.2 é seu sistema de controle estético cinematográfico, que permite aos usuários exercer controle preciso sobre diversas dimensões visuais. O modelo foi treinado com dados estéticos cuidadosamente selecionados, incluindo rótulos detalhados para iluminação, composição, contraste, matiz, ângulo da câmera, tamanho da imagem, distância focal e outros parâmetros cinematográficos.

Essa funcionalidade se baseia em um sistema de prompts inspirado no cinema, que categoriza dimensões-chave como iluminação, composição e cor. Isso permite que o Wan2.2 interprete e implemente com precisão as intenções estéticas do usuário durante o processo de geração, possibilitando a criação de vídeos com preferências cinematográficas personalizáveis.

Dados de treinamento avançados e geração de movimentos complexos

Em comparação com seu antecessor, Wan2.1, o conjunto de dados de treinamento foi significativamente expandido: 65,6% mais dados de imagem e 83,2% mais dados de vídeo. Essa expansão massiva de dados melhora consideravelmente as capacidades de generalização do modelo e aumenta a diversidade criativa em múltiplas dimensões, como movimento, semântica e estética.

O modelo demonstra melhorias significativas na geração de movimentos complexos, incluindo expressões faciais realistas, gestos dinâmicos com as mãos e movimentos atléticos intrincados. Além disso, proporciona renderizações realistas com maior obediência a comandos e respeito às leis da física, resultando em sequências de vídeo mais naturais e convincentes.

Utilização eficiente do hardware e acessibilidade

O Wan2.2 oferece três variantes de modelo diferentes que atendem a diferentes requisitos e configurações de hardware:

  • Wan2.2-T2V-A14B: Um modelo de conversão de texto em vídeo com 27 bilhões de parâmetros (14 bilhões ativos) que gera vídeos com resolução de 720p e 16fps.
  • Wan2.2-I2V-A14B: Um modelo de conversão de imagem para vídeo com a mesma arquitetura para converter imagens estáticas em vídeos.
  • Wan2.2-TI2V-5B: Um modelo compacto de 5 bilhões de parâmetros que combina funções de conversão de texto em vídeo e de imagem em vídeo em uma estrutura unificada.

O modelo compacto TI2V-5B representa um avanço significativo, pois consegue gerar vídeos de 5 segundos em 720p em menos de 9 minutos utilizando uma única GPU de consumo, como a RTX 4090. Essa velocidade o torna um dos modelos mais rápidos disponíveis para 720p a 24fps, permitindo que tanto aplicações industriais quanto pesquisas acadêmicas se beneficiem da tecnologia.

Arquitetura avançada dos Emirados Árabes Unidos para compressão otimizada

O modelo TI2V-5B é baseado em uma arquitetura VAE 3D altamente eficiente com uma taxa de compressão de 4×16×16, aumentando a taxa geral de compressão de informações para 64. Com uma camada de patch adicional, a taxa de compressão geral do TI2V-5B chega a 4×32×32, garantindo reconstrução de vídeo de alta qualidade com requisitos mínimos de armazenamento.

Essa tecnologia avançada de compressão permite que o modelo suporte nativamente tarefas de conversão de texto em vídeo e de imagem em vídeo em uma única estrutura unificada, abrangendo tanto a pesquisa acadêmica quanto as aplicações práticas.

Desempenho de referência e posicionamento de mercado

O Wan2.2 foi testado em comparação com os principais modelos comerciais de geração de vídeo por IA, incluindo Sora, KLING 2.0 e Hailuo 02, usando o novo conjunto de testes de avaliação Wan-Bench 2.0. Os resultados mostram que o Wan2.2 alcança desempenho de ponta na maioria das categorias e supera seus concorrentes de alto nível.

Em comparações diretas de classificação, o Wan2.2-T2V-A14B garantiu o primeiro lugar em quatro das seis principais dimensões de referência, incluindo as áreas críticas de qualidade estética e dinâmica de movimento. Essa conquista estabelece o Wan2.2 como o novo líder de mercado de código aberto em geração de vídeo de alta resolução.

Disponibilidade e integração de código aberto

O Wan2.2 está disponível como software totalmente de código aberto sob a licença Apache 2.0 e pode ser baixado do Hugging Face, GitHub e ModelScope. Os modelos já estão integrados em frameworks populares como ComfyUI e Diffusers, permitindo o uso perfeito em fluxos de trabalho existentes.

O modelo TI2V-5B apresenta um Hugging Face Space pronto para uso, permitindo que os usuários experimentem a tecnologia imediatamente, sem instalações complexas. Essa acessibilidade democratiza o acesso à tecnologia de geração de vídeo de ponta e fomenta a inovação em toda a comunidade de desenvolvedores.

Ofensiva estratégica de IA da China

O lançamento do Wan2.2 faz parte de uma estratégia chinesa mais ampla de IA de código aberto que já atraiu atenção internacional com modelos como o DeepSeek. Essa estratégia está alinhada ao plano oficial de digitalização da China, que promove a colaboração em código aberto como um recurso nacional desde 2018 e prevê investimentos governamentais maciços em infraestrutura de IA.

A Alibaba já registrou mais de 5,4 milhões de downloads de seus modelos WAN no Hugging Face e no ModelScope, o que demonstra a forte demanda internacional por soluções de IA de código aberto chinesas. A empresa planeja investir cerca de US$ 52 bilhões em infraestrutura de computação em nuvem e IA para consolidar sua posição nesse mercado em rápido crescimento.

Relacionado a isto:

O Wan2.2 representa um avanço revolucionário em vídeos com IA: código aberto em nível profissional

O Wan2.2 representa um ponto de virada na geração de vídeo por IA, oferecendo a primeira alternativa de código aberto a modelos proprietários pagos que podem competir com soluções comerciais. A combinação de qualidade cinematográfica, utilização eficiente de hardware e disponibilidade totalmente em código aberto posiciona o modelo como uma alternativa atraente para criadores de conteúdo, cineastas e desenvolvedores em todo o mundo.

O lançamento provavelmente intensificará a competição no campo da geração de vídeo com inteligência artificial e poderá incentivar outras empresas a adotarem estratégias semelhantes de código aberto. Com sua capacidade de rodar em hardware de consumo e oferecer resultados profissionais, o Wan2.2 tem o potencial de democratizar a produção de vídeo e abrir novas possibilidades criativas.

Ao combinar tecnologia avançada com uma filosofia de desenvolvimento aberto, a Alibaba está estabelecendo novos padrões na geração de vídeos com IA com o Wan2.2 e consolidando a China como uma força líder em inovação global em IA. As implicações de longo alcance desse desenvolvimento mudarão fundamentalmente a forma como os vídeos são criados e produzidos nos próximos anos.

Relacionado a isto:

 

Seu especialista em transformação, integração e plataforma de IA

☑️ Nosso idioma comercial é inglês ou alemão

☑️ NOVO: Correspondência em seu idioma nativo!

 

Konrad Wolfenstein

Eu e minha equipe teremos o prazer de estar à sua disposição como seu consultor pessoal.

Você pode entrar em contato comigo preenchendo o formulário de contato aqui wolfenstein@xpert.digital:ou simplesmente ligando para +49 7348 4088 965. Meu endereço de e-mail é

Estou ansioso pelo nosso projeto conjunto.

 

 

☑️ Apoio a PMEs em estratégia, consultoria, planejamento e implementação

☑️ Criação ou realinhamento da estratégia de IA

☑️ Desenvolvimento de Negócios Pioneiros

Sair da versão para celular