O Rei Secreto da IA: Como o Qwen3.5 da Alibaba está dando trabalho para a OpenAI e o Google

Konrad Wolfenstein

5 meses atrás

O Rei Secreto da IA: Como o Qwen3.5 da Alibaba está dando trabalho para a OpenAI e o Google

Rei secreto da IA: Como o Qwen3.5 da Alibaba está dando trabalho para a OpenAI e o Google – Imagem: Xpert.Digital

Gratuito em vez de premium: a engenhosa estratégia de código aberto da China contra o ChatGPT e outras plataformas similares.

700 milhões de downloads: A revolução silenciosa da IA Qwen que todos ignoraram

Das sombras: como Qwen se tornou a plataforma dominante

Por muito tempo, a OpenAI e o Google foram considerados os governantes incontestáveis do mundo da IA, mas uma mudança de paradigma fundamental vem ocorrendo nos bastidores. Com o lançamento da família de modelos Qwen3.5, a gigante chinesa de tecnologia Alibaba não está apenas desafiando o domínio dos players ocidentais estabelecidos, mas também redefinindo completamente as regras do jogo para a inteligência artificial. Através de uma reformulação arquitetônica radical, o Qwen3.5 resolve o problema de recursos dos modelos Transformer clássicos e oferece desempenho sem precedentes com um esforço computacional drasticamente reduzido. A estratégia é tão simples quanto agressiva: modelos de código aberto altamente poderosos e nativamente multimodais são disponibilizados gratuitamente – mesmo as versões compactas oferecem desempenho em hardware local que não fica devendo em nada a gigantescos sistemas comerciais. Essa iniciativa é muito mais do que uma simples atualização técnica. É uma manobra geopolítica que ataca as margens de lucro do mercado global de IA e, simultaneamente, inaugura a era dos agentes de IA autônomos para o mercado de massa ("IA Agentic"). Uma análise detalhada mostra como a Alibaba alcançou esse feito e o que os números de referência realmente significam para o futuro do setor.

Relacionado a isto:

A ofensiva chinesa de código aberto em inteligência artificial: como o software livre está destruindo os negócios multibilionários do Vale do Silício

A revolução silenciosa da Alibaba: como a família Qwen3.5 está renegociando a ordem mundial da IA

O ataque da China ao código aberto atinge a OpenAI e o Google onde mais dói: em sua arquitetura

Quando a Alibaba lançou a série de modelos Qwen3 em abril de 2025, a reação do jornalismo tecnológico ocidental foi discreta. Reconhecidamente poderosa, mas, em última análise, apenas mais um modelo em um mercado cada vez mais saturado – esse foi o veredicto. O que essa avaliação imparcial ignorou foi que o Qwen não era mais um projeto de nicho, mas estava a caminho de se tornar a plataforma de IA de código aberto mais utilizada no mundo. Em janeiro de 2026, a equipe do Qwen relatou 700 milhões de downloads no Hugging Face, alcançando uma posição que ultrapassou até mesmo o Llama da Meta, por muitos anos a referência indiscutível para modelos de linguagem de código aberto. Os números falavam por si: em dezembro de 2025, os downloads mensais do Qwen excederam o total combinado dos oito modelos seguintes mais populares – incluindo Meta, DeepSeek, OpenAI, Mistral e Nvidia.

Essa popularidade não é por acaso. Os números refletem uma decisão estratégica que o Alibaba vem seguindo consistentemente desde 2023: lançar modelos Qwen mais cedo, com mais frequência e em mais variações do que seus concorrentes. Até o momento, o Alibaba disponibilizou quase 400 modelos do conjunto Qwen como código aberto e gerou mais de 180.000 versões derivadas. Mesmo grupos de pesquisa de ponta utilizam o Qwen: a equipe liderada pela pioneira em IA Fei-Fei Li treinou seu aclamado modelo de inferência s1 no Qwen com recursos relativamente modestos. O DeepSeek, o laboratório de modelagem chinês que causou sensação global com o R1 no início de 2025, lançou seis modelos baseados na comunidade – quatro dos quais são baseados no Qwen.

Na métrica mais crucial da comunidade de IA de código aberto, o Qwen alcançou uma posição que os analistas de mercado consideram um efeito de rede praticamente inabalável: aqueles que desenvolvem soluções baseadas no Qwen se beneficiam de um vasto ecossistema de modelos derivados, ajustes finos, otimizações e suporte da comunidade. Aqueles que competem com o Qwen, por sua vez, competem contra um ciclo virtuoso de efeitos de rede. Essa força estrutural constitui o pano de fundo no qual a série de modelos Qwen3.5 deve ser avaliada.

A aposta arquitetônica: por que o Qwen3.5 pensa diferente de seus antecessores

A diferença crucial entre a família Qwen3.5 e seus predecessores reside não em um simples aumento de parâmetros, mas em uma mudança fundamental no paradigma arquitetônico. Os modelos Transformer clássicos – do GPT-4 ao Llama e ao Qwen3 original – dependem do chamado mecanismo de autoatenção, que matematicamente escala com complexidade quadrática. Isso significa que dobrar o comprimento do contexto quadruplica o esforço computacional. Esse é o gargalo que torna documentos longos, bases de código extensas ou históricos de conversas de várias horas tão exigentes em termos de recursos para modelos de linguagem.

O Qwen não resolveu esse problema por meio de otimizações incrementais, como o DeepSeek fez com sua Atenção Latente Multi-Cabeças, mas sim por meio de uma reformulação arquitetônica mais radical. O núcleo da nova arquitetura é a estrutura híbrida de mistura de especialistas: a cada quatro blocos de Transformer, três são substituídos por Redes Delta com Portões (Gated Delta Networks) – uma variante de atenção linear baseada no trabalho teórico "Redes Delta com Portões: Aprimorando o Mamba2 com a Regra Delta". Apenas um em cada quatro blocos permanece como uma camada clássica de atenção completa para tarefas de precisão. O resultado é uma complexidade computacional que cresce linearmente com o comprimento do contexto – uma diferença categórica em relação ao escalonamento quadrático dos Transformers clássicos.

As consequências dessa decisão são significativas. Na prática, o escalonamento linear significa que, com a mesma capacidade computacional, o modelo pode processar textos consideravelmente mais longos e gerar tokens mais rapidamente do que um modelo denso com inteligência comparável. O Qwen3.5-Plus, a versão hospedada via Alibaba Cloud, suporta uma janela de contexto de um milhão de tokens — uma capacidade que, há apenas dois anos, era reservada exclusivamente para abordagens arquitetônicas especializadas, como a IA Constitucional de Claude. Ao mesmo tempo, a arquitetura híbrida reduz drasticamente os requisitos de VRAM: enquanto um modelo denso clássico de 400 bilhões de parâmetros requer mais de 800 GB de memória de GPU, o Qwen3.5-397B-A17B opera com 48 a 96 GB em sistemas quantizados.

Uma nova dimensão da transformação digital com 'IA Gerenciada' (Inteligência Artificial) - Plataforma e solução B2B | Xpert Consulting

Uma nova dimensão da transformação digital com 'IA Gerenciada' (Inteligência Artificial) – Plataforma e solução B2B | Xpert Consulting - Imagem: Xpert.Digital

Aqui você aprenderá como sua empresa pode implementar soluções de IA personalizadas de forma rápida, segura e sem grandes barreiras de entrada.

Uma plataforma de IA gerenciada é a sua solução completa e descomplicada para inteligência artificial. Em vez de lidar com tecnologia complexa, infraestrutura cara e processos de desenvolvimento demorados, você recebe uma solução pronta, personalizada para suas necessidades, de um parceiro especializado – geralmente em poucos dias.

Principais vantagens em resumo:

⚡ Implementação rápida: Da ideia à aplicação pronta para uso em dias, não em meses. Oferecemos soluções práticas que geram valor agregado imediato.

🔒 Máxima segurança de dados: Seus dados sensíveis permanecem com você. Garantimos o processamento seguro e em conformidade com as normas, sem compartilhar dados com terceiros.

💸 Sem risco financeiro: você só paga pelos resultados. Os altos investimentos iniciais em hardware, software ou pessoal são completamente eliminados.

🎯 Concentre-se no seu negócio principal: Foque no que você faz de melhor. Nós cuidamos de toda a implementação técnica, operação e manutenção da sua solução de IA.

📈 Preparada para o futuro e escalável: Sua IA cresce com você. Garantimos otimização e escalabilidade contínuas, adaptando os modelos de forma flexível a novas necessidades.

Mais informações aqui:

A Solução de IA Gerenciada - Serviços de IA Industrial: A Chave para a Competitividade nos Setores de Serviços, Indústria e Engenharia Mecânica

A nova IA da China supera o Google e a OpenAI com uma fração do tamanho

Os fogos de artifício da série de modelos: de 397 bilhões para 0,8 bilhão de parâmetros

A estratégia de lançamento da família Qwen3.5 seguiu um ritmo bem calculado. O modelo principal, Qwen3.5-397B-A17B, deu o pontapé inicial pouco antes do Ano Novo Chinês: 397 bilhões de parâmetros no total, dos quais apenas 17 bilhões estão ativos por token. Essa arquitetura esparsa, com uma mistura de especialistas, causou espanto no primeiro teste prático, já que a taxa de ativação de menos de cinco por cento significava que, apesar de seu tamanho geral gigantesco, o modelo alcançou a latência de um modelo significativamente menor.

Logo em seguida, vieram os verdadeiros fogos de artifício: Qwen3.5-122B-A10B e Qwen3.5-35B-A3B como modelos SMoE para aplicações de alto desempenho, e o denso Qwen3.5-27B como uma solução versátil para usuários que priorizam alta qualidade em tarefas individuais em detrimento da velocidade de inferência pura. As primeiras avaliações da comunidade revelaram um cenário surpreendente: o modelo 27B, embora com menos parâmetros do que as variantes SMoE, obteve resultados mais expressivos em diversos benchmarks – um indício de que o processo de treinamento mais complexo para arquiteturas esparsas ainda não está totalmente otimizado e possui potencial adicional.

A maior repercussão, no entanto, foi causada pelo lançamento subsequente dos modelos menores: Qwen3.5-9B, Qwen3.5-4B, Qwen3.5-2B e Qwen3.5-0.8B. Esses modelos são especificamente projetados para uso em computadores padrão e oferecem uma densidade de desempenho praticamente sem precedentes na história dos modelos de linguagem compactos. O Qwen3.5-9B alcançou uma pontuação de 81,7 pontos no benchmark GPQA Diamond, que testa o raciocínio acadêmico de nível de pós-graduação — superando o GPT-oss-120B da OpenAI, com 80,1 pontos, um modelo com mais de treze vezes o número de parâmetros. No benchmark de raciocínio visual MMMU-Pro, o modelo 9B obteve 70,1 pontos, em comparação com os 59,7 do Gemini 2.5 Flash-Lite. O modelo 4B também causou grande impacto: no Video-MME (com legendas), alcançou 83,5 pontos, muito à frente dos 74,6 do Google.

Relacionado a isto:

Corrida da IA: Alibaba revela novo modelo principal e pressiona concorrentes – Pesquisa

Multimodalidade como padrão: O fim do sufixo VL

Um passo estratégico e simbólico de grande importância na família Qwen3.5 é a remoção da abreviatura "VL" dos nomes dos modelos. Anteriormente, "VL" (Vision Language) designava os modelos capazes de processar imagens – uma capacidade sempre tratada como um recurso adicional. Na geração 3.5, todos os modelos, sem exceção, são nativamente multimodais: texto, imagens e vídeos não são processados por meio de adaptadores posteriores, mas sim integrados desde o início por meio de treinamento de fusão inicial.

Esta mudança vai além da mera estética. Ela sinaliza um reposicionamento estratégico: o Qwen não considera mais a multimodalidade como um recurso premium para variantes selecionadas do modelo, mas sim como um requisito básico para todos os modelos de linguagem modernos. A implementação técnica usando Early Fusion significa que a compreensão de imagens e da linguagem é aprendida em um espaço representacional compartilhado – com a vantagem de que o modelo pode conectar profundamente o conhecimento visual e linguístico, em vez de apenas combiná-los superficialmente. O Qwen 3.5 também oferece suporte a 201 idiomas e dialetos, em comparação com os 119 da geração anterior.

Geopolítica no código: o que a ofensiva de código aberto da China significa para o mercado global de IA

Por trás desse progresso tecnológico, existe uma dimensão geopolítica frequentemente negligenciada pela mídia ocidental. Em 2025 e 2026, a indústria chinesa de IA adotou uma estratégia que poderia ser descrita como "desvalorização do código aberto": modelos com desempenho comparável aos dos fornecedores comerciais mais caros foram disponibilizados gratuitamente, com uma licença que permitia o uso comercial. O resultado é uma desvalorização sistemática do preço premium que a OpenAI, a Anthropic e o Google cobram por seus produtos principais.

A Alibaba posiciona explicitamente o Qwen3.5 como concorrente do GPT-5.2 e do Claude 4.5 Opus. Em benchmarks internos, o Qwen3.5 superou ambos os modelos no IFBench, um teste que mede a qualidade do seguimento de instruções. No benchmark de raciocínio HMMT, o Qwen3.5 superou o Claude 4.5 Opus, mas ficou atrás do GPT-5.2. Esse cenário de desempenho cheio de nuances é característico: o Qwen3.5 não é inegavelmente o líder em nenhuma categoria específica, mas é competitivo em todas elas — e tudo isso com código aberto completo.

A reação do mercado a essa situação já é evidente. Desenvolvedores, principalmente em empresas com recursos limitados, estão recorrendo a derivados do Qwen porque o custo total de propriedade da inferência radical em seu próprio hardware é drasticamente menor do que os custos de API de provedores comerciais. Essa é uma vantagem crucial para clientes B2B que desejam escalar soluções de IA sem pagar por token. A pressão sobre os preços exercida no mercado pelos modelos chineses de código aberto já levou a OpenAI a posicionar linhas de produtos mais acessíveis, como o GPT-5 mini – uma resposta direta à concorrência do Qwen.

Benchmarks sem o mito: O que os números realmente dizem

Uma avaliação séria dos benchmarks do Qwen3.5 exige distanciamento crítico. A Alibaba divulgou suas comparações de desempenho como "autodeclaradas" — um fato explicitamente mencionado pela CNBC, o que torna necessária uma verificação independente. Além disso, benchmarks não são medidas neutras: os modelos podem ser pré-treinados em dados semelhantes aos de benchmarks, levando a sobreajuste para certos formatos de teste sem resultar em qualquer melhoria de desempenho no mundo real. Os testes conduzidos pela comunidade nas semanas seguintes ao lançamento apresentam um panorama mais misto, mas, no geral, impressionante.

Os resultados são particularmente robustos quando aplicados a benchmarks que exigem raciocínio ativo e não podem ser resolvidos por meio de mera recuperação de fatos. O benchmark GPQA Diamond, que apresenta questões de biologia, física e química em nível de doutorado, é considerado especialmente resistente à manipulação. O fato de o Qwen3.5-9B superar um modelo de 120 bilhões de parâmetros nesse caso não é, de acordo com pesquisas atuais, um artefato de medição, mas sim uma expressão do efeito de aumento de eficiência da nova arquitetura em combinação com dados de treinamento de maior qualidade. O Qwen empregou um pipeline FP8 e uma estrutura de aprendizado por reforço assíncrono para o treinamento — decisões técnicas que aumentam a eficiência dos dados e tornam o treinamento mais estável.

Relacionado a isto:

O modelo de IA Qwen 3 da Alibaba: um novo marco no desenvolvimento de IA e seu impacto no mercado global de tecnologia

Inteligência Artificial Agética e a próxima etapa de desenvolvimento da plataforma Qwen

A Alibaba posiciona o Qwen3.5 não apenas como mais um modelo de chat, mas explicitamente como a arquitetura fundamental para a "Era da IA Agenética". Essa afirmação é sustentada por evidências técnicas substanciais: o treinamento de aprendizado por reforço foi escalado para milhões de ambientes de agentes com distribuições de tarefas cada vez mais complexas — uma metodologia que se concentra na execução de tarefas reais e em múltiplos estágios, em vez da reprodução estática de conhecimento. O Qwen3.5-Plus oferece uso nativo de ferramentas por meio do Alibaba Cloud e um sistema adaptativo de uso de ferramentas que permite que os agentes acessem APIs externas, bancos de dados e consultas de pesquisa de forma independente.

O fato de um modelo de linguagem com 17 bilhões de parâmetros ativos conseguir lidar com essas tarefas com qualidade competitiva representa uma mudança fundamental na economia das aplicações de IA baseadas em agentes. As abordagens anteriores exigiam modelos grandes e caros como cérebro do agente, aumentando significativamente os custos operacionais para tarefas autônomas extensas. O Qwen3.5-9B, que roda localmente em hardware com uma única GPU de alto desempenho, torna os sistemas de IA baseados em agentes acessíveis ao mercado intermediário em geral e a desenvolvedores sem orçamento para nuvem. Essa dinâmica de democratização pode acelerar significativamente a trajetória de adoção de agentes de IA em empresas de médio porte.

Consultoria - Planejamento - Implementação