Deepseek V3: Modelo AI aprimorado com desempenho impressionante de IA excede os principais modelos em benchmarks

Publicado em: 26 de março de 2025 / Atualizado em: 26 de março de 2025 – Autor: Konrad Wolfenstein

DeepSeek V3 aprimora o raciocínio e a programação

O futuro da IA de código aberto: DeepSeek lança a atualização V3

Em 25 de março de 2025, a DeepSeek lançou uma atualização significativa para seu modelo de linguagem V3, o DeepSeek-V3-0324. Esta nova versão apresenta melhorias substanciais em áreas como raciocínio, programação e desenvolvimento front-end. Com resultados impressionantes em benchmarks e a capacidade de ser executado em hardware de consumo potente, o DeepSeek-V3-0324 se posiciona como um modelo de IA de código aberto líder, desafiando soluções proprietárias.

Adequado para:

Análise comparativa dos principais modelos de IA: Google Gemini 2.0, DeepSeek R2 e GPT-4.5 da OpenAI

Fundamentos Tecnológicos e Arquitetura

A combinação de especialistas como tecnologia-chave

O DeepSeek V3-0324 é baseado em uma arquitetura inovadora de Mistura de Especialistas (MoE) que o diferencia de muitos outros modelos de IA. Essa arquitetura permite que o sistema ative não todas as partes do modelo para cada tarefa, mas apenas os componentes específicos necessários para a consulta em questão. Ele funciona como uma equipe de especialistas, onde apenas o especialista certo é acionado para resolver um problema.

O modelo atual possui um total de 685 bilhões de parâmetros, mas apenas cerca de 37 bilhões são ativados para cada tarefa. Essa ativação seletiva permite um processamento significativamente mais eficiente e reduz consideravelmente a necessidade de recursos.

Tecnologias inovadoras para um desempenho aprimorado

O DeepSeek-V3-0324 introduz duas inovações técnicas importantes que melhoram seu desempenho:

Atenção Latente Multi-Cabeças (MLA): Essa tecnologia comprime o cache de chave-valor em um vetor latente, o que otimiza o processamento de textos mais longos e reduz significativamente os requisitos de memória.
Previsão de Múltiplos Tokens (MTP): Permite a geração simultânea de múltiplos tokens, aumentando a velocidade de emissão em até 80%.
Além disso, o DeepSeek V3 utiliza aritmética de precisão mista, que realiza operações de ponto flutuante com números de comprimentos e precisões variáveis na mesma operação. A precisão reduzida economiza tempo sem comprometer significativamente a qualidade dos resultados.

Melhorias de desempenho e resultados de referência

Progressos significativos em diversas áreas

O DeepSeek-V3-0324 apresenta melhorias notáveis em relação ao seu antecessor em diversas áreas importantes:

Habilidades de raciocínio – Os resultados dos testes de referência mostram melhorias significativas, especialmente em tarefas complexas:
- MMLU-Pro: de 75,9 para 81,2 (+5,3 pontos)
- GPQA: de 59,1 para 68,4 (+9,3 pontos)
- AIME (American Invitational Mathematics Examination): de 39,6 para 59,4 (+19,8 pontos)
- LiveCodeBench: de 39,2 para 49,2 (+10,0 pontos)
Desenvolvimento Frontend: Aprimoramento das habilidades na criação de código executável e de interfaces de sites e jogos visualmente atraentes.
Habilidades em língua chinesa: Aprimoramento da escrita, com melhor estilo e qualidade em textos de médio a longo formato, otimização da qualidade de tradução e redação de cartas.

Posicionamento na competição de IA

O DeepSeek-V3-0324 agora é o modelo não racional com a melhor classificação no Índice de Inteligência da Artificial Analysis. Ele supera todos os modelos não racionais proprietários, incluindo o Gemini 2.0 Pro, o Claude 3.7 Sonnet e o Llama 3.3 70B. No Índice de Inteligência, ele fica logo atrás do próprio modelo R1 da DeepSeek e de outros modelos racionais da OpenAI, Anthropic e Alibaba.

Em testes como o DROP, o DeepSeek alcançou um impressionante índice de 91,6%, enquanto o GPT-4o atingiu 83,7% e o Claude-3.5, 88,3%. Esses resultados reforçam a competitividade do modelo em relação às principais soluções proprietárias.

Eficiência e acessibilidade

Otimização de recursos e requisitos de hardware

Uma das características mais notáveis do DeepSeek-V3-0324 é a sua eficiência. Graças à arquitetura MoE e a outras otimizações, o modelo pode ser executado em dispositivos de consumo potentes, como o Mac Studio com o chip M3 Ultra, atingindo velocidades superiores a 20 tokens por segundo.

A versão de 4 bits do modelo requer apenas cerca de 352 GB de espaço de armazenamento e consome menos de 200 watts durante a inferência – significativamente menos do que os sistemas de IA convencionais, que geralmente requerem vários quilowatts. Essa eficiência pode redefinir os requisitos para a infraestrutura de IA.

Licenciamento aberto e disponibilidade

Ao contrário de concorrentes ocidentais como a OpenAI ou a Anthropic, que oferecem seus modelos apenas por meio de APIs pagas, o DeepSeek-V3-0324 foi lançado sob a licença MIT. Isso permite o uso gratuito e aplicações comerciais sem restrições.

O modelo está disponível em diversas plataformas:

Através do aplicativo DeepSeek
No site oficial
Por meio de interface de programação de aplicativos (API)
Como uma instalação em seus próprios computadores
Através da nuvem Microsoft Azure

Adequado para:

Economic Turbo Deepseek: A nova IA da China Hope como mecanismo econômico?

História e visão da empresa

Do mundo financeiro à pesquisa em IA

A DeepSeek foi fundada em abril de 2023 por Liang Wenfeng, que anteriormente havia cofundado o fundo de hedge High-Flyer em 2015. O fundo de hedge era especializado em estratégias de negociação baseadas em matemática e inteligência artificial, o que lançou as bases para o seu subsequente desenvolvimento em IA.

A empresa foi fundada em resposta à proibição de exportação de chips de alta tecnologia imposta pelos EUA à China. O objetivo estratégico da DeepSeek é fornecer uma alternativa poderosa e competitiva às soluções de IA ocidentais, ao mesmo tempo que fortalece a soberania tecnológica da China.

Filosofia da Abertura

Segundo Liang Wenfeng, os resultados de pesquisa e os modelos da empresa são sempre publicados sob licenças de código aberto, o que faz parte da cultura da empresa. Essa abertura contrasta com inúmeros sistemas de IA proprietários, que são caracterizados por licenças restritivas.

“Acreditamos firmemente que 99% do sucesso resulta de trabalho árduo e apenas 1% de talento”, descreve a filosofia da empresa em seu site.

Perspectivas e desenvolvimentos futuros

Base para novos modelos

O DeepSeek-V3-0324 poderá servir de base para um novo modelo de raciocínio chamado R2, cujo lançamento está previsto para as próximas semanas. O modelo R1 atual já atraiu atenção por suas capacidades de resolução de problemas.

O desenvolvimento contínuo dos modelos DeepSeek sugere um roteiro dinâmico que pode incluir suporte multimodal e outros recursos inovadores no ecossistema DeepSeek.

Democratizando a IA: como o DeepSeek-V3-0324 está estabelecendo novos padrões

O DeepSeek-V3-0324 representa um avanço significativo no desenvolvimento de grandes modelos de linguagem. Através de sua arquitetura inovadora, desempenho impressionante e licenciamento aberto, ele desafia modelos proprietários estabelecidos e pode impulsionar a democratização das tecnologias de IA.

A combinação de inovação tecnológica, eficiência e acessibilidade faz do DeepSeek-V3-0324 um marco significativo no cenário da IA. Com sua capacidade de ser executado em hardware de consumo e seus recursos aprimorados em áreas como raciocínio, programação e desenvolvimento front-end, o DeepSeek se posiciona como um concorrente de peso para empresas líderes em IA como OpenAI, Google e Anthropic.

Adequado para: