Deepseek V3: Modelo AI aprimorado com desempenho impressionante de IA excede os principais modelos em benchmarks

Publicado em: 26 de março de 2025 / atualização de: 26 de março de 2025 - Autor: Konrad Wolfenstein

Deepseek V3 melhora o raciocínio e a programação

O futuro do código aberto KI: Deepseek publica atualização v3

Em 25 de março de 2025, a DeepSeek lançou uma atualização importante de seu modelo de idioma V3 chamado Deepseek-V3-0324. Esta nova versão mostra melhorias significativas em áreas como o raciocínio, a programação e o desenvolvimento do front -end. Com resultados impressionantes de referência e a possibilidade de executar em hardware de consumo poderoso, o DeepSeek-V3-0324 se posiciona como um dos principais modelo de IA de código aberto que desafia as soluções proprietárias.

Adequado para:

Análise comparativa dos principais modelos de IA: Google Gemini 2.0, Deepseek R2 e GPT-4.5 do OpenAai

Fundações tecnológicas e arquitetura

Mistura de especialistas como tecnologia-chave

O Deepseek V3-0324 é baseado em uma arquitetura inovadora da mistura de especialistas (MOE) que a distingue de muitos outros modelos de IA. Essa arquitetura permite que o sistema não ative todas as partes do modelo para cada tarefa, mas apenas os componentes específicos necessários para a respectiva solicitação. Funciona como uma equipe de especialistas, na qual apenas o especialista certo é usado para resolver um problema.

O modelo atual possui um total de 685 bilhões de parâmetros, dos quais apenas cerca de 37 bilhões são ativados para cada tarefa. Essa ativação seletiva permite um processamento significativamente mais eficiente e reduz significativamente os requisitos de recursos.

Técnicas inovadoras para melhor desempenho

Deepseek-V3-0324 apresenta duas inovações técnicas centrais que aumentam seu desempenho:

Atenção latente de várias cabeças (MLA): Essa tecnologia comprime o cache do valor da chave em um vetor latente, que otimiza o processamento de textos mais longos e reduz significativamente o requisito de memória.
Previsão com vários toques (MTP): permite a geração simultânea de vários tokens, o que aumenta a velocidade de saída em até 80 %.
Além disso, o DeepSeek usa aritmética de precisão mista V3, na qual a combinaritmética do lubrificante é realizada com um número de comprimentos e precisão diferentes na mesma operação. A precisão reduzida ganha tempo sem afetar significativamente a qualidade dos resultados.

Melhorias de desempenho e resultados de referência

Progresso significativo em diferentes áreas

Deepseek-V3-0324 mostra melhorias notáveis em comparação com seu antecessor em várias áreas-chave:

Recursos de raciocínio--os resultados da referência mostram aumentos significativos, especialmente para tarefas complexas:
- Mmlu-pro: de 75,9 a 81,2 (+5,3 pontos)
- GPQA: de 59,1 a 68,4 (+9,3 pontos)
- AIME (American Invitational Mathematics Examination): de 39,6 a 59.4 (+19,8 pontos)
- LiveCodeBech: de 39,2 a 49,2 (+10,0 pontos)
Desenvolvimento do front -end: Habilidades aprimoradas para criar códigos executáveis e sites e front -ends de jogo esteticamente atraentes.
Habilidades de idiomas chineses: habilidades de escrita aprimoradas com melhor estilo e qualidade em textos de médio a longo prazo, qualidade de tradução otimizada e carta de carta.

Posicionamento na competição de IA

Deepseek-V3-0324 é agora o modelo de não leitura mais bem classificado no índice de inteligência da análise artificial. Ele supera todos os modelos proprietários de não leitura, incluindo Gemini 2.0 Pro, Claude 3,7 sonetos e llama 3,3 70b. No índice de inteligência, ele está diretamente atrás do modelo R1 de Deepseek e outros modelos de raciocínio da OpenAai, Anthrópica e Alibaba.

Em testes como Drop, a DeepSeek alcançou 91,6%impressionantes, enquanto o GPT-4O atingiu 83,7%e Claude 3,5 88,3%. Esses resultados sublinham a competitividade do modelo em comparação com as principais soluções proprietárias.

Eficiência e acessibilidade

Otimização de recursos e requisitos de hardware

Uma das propriedades mais notáveis do DeepSeek-V3-0324 é sua eficiência. Através da arquitetura MOE e de outras otimizações, o modelo pode ser operado em poderosos dispositivos de consumo, como o Mac Studio com M3 Ultra Chip, onde são alcançadas velocidades de mais de 20 tokens por segundo.

A versão de 4 bits do modelo precisa apenas de cerca de 352 GB de espaço de armazenamento e consome menos de 200 watts durante os sistemas de IA convencionais, significativamente menores, que geralmente precisam de vários quilowatts. Essa eficiência pode redefinir os requisitos para a infraestrutura de IA.

Licenciamento e disponibilidade abertos

Em contraste com os concorrentes ocidentais, como OpenAai ou Antrópico, que oferecem apenas seus modelos por meio de APIs pagas, o Deepseek-V3-0324 foi publicado sob a co-licença. Isso permite o uso gratuito e inserções comerciais sem restrições.

O modelo está disponível em várias plataformas:

Através do aplicativo Deepseek
No site oficial
Via interface de programação (API)
Como uma instalação em seus próprios computadores
Sobre a nuvem do Microsoft Azure

Adequado para:

Economic Turbo Deepseek: A nova IA da China Hope como mecanismo econômico?

História e visão corporativas

Do mundo financeiro à pesquisa de IA

A Deepseek foi fundada em abril de 2023 por Liang Wenfeng, que fundou anteriormente o Heggink Hegl-Flyer em 2015. O fundo de hedge havia se especializado em estratégias comerciais matemáticas e apoiadas pela IA, que lançaram a pedra fundamental para o desenvolvimento posterior da IA.

A empresa foi fundada em relação aos antecedentes da proibição de exportação imposta pelos EUA de chips de alta tecnologia para a China. Deepseek busca o objetivo estratégico de fornecer uma alternativa poderosa e competitiva às soluções ocidentais de IA e, ao mesmo tempo, fortalecer a soberania tecnológica da China.

Filosofia da abertura

De acordo com Liang Wenfeng, os resultados e modelos de pesquisa da empresa são sempre publicados sob licenças de código aberto, que fazem parte da cultura corporativa. Essa abertura contrasta com vários sistemas proprietários de IA que são caracterizados por licenças restritivas.

"Acreditamos firmemente que 99 % do sucesso do trabalho duro e apenas um por cento resultam do talento", a empresa descreve sua filosofia em seu site.

Perspectivas e desenvolvimentos futuros

Base para novos modelos

Deepseek-V3-0324 poderia servir de base para um novo modelo de raciocínio chamado R2, cuja publicação é esperada nas próximas semanas. O atual modelo R1 já havia atraído a atenção através de suas habilidades de solução de problemas.

O desenvolvimento contínuo dos modelos Deepseek indica um roteiro dinâmico, que também pode incluir suporte multimodal e outras funções orientadas para o futuro no ecossistema Deepseek.

Democratização da IA: como Deepseek-V3-0324 define novos padrões

Deepseek-V3-0324 representa um progresso significativo no desenvolvimento de grandes modelos de voz. Por meio de sua arquitetura inovadora, desempenho impressionante e licenciamento aberto, desafia os modelos proprietários estabelecidos e podem impulsionar a democratização das tecnologias de IA.

A combinação de inovação tecnológica, eficiência e acessibilidade torna o DeepSeek-V3-0324 um marco importante na paisagem da IA. Com sua capacidade de executar o hardware do consumidor e suas habilidades aprimoradas em áreas como raciocínio, programação e desenvolvimento de front -end, a DeepSeek se posiciona como um concorrente sério para liderar empresas de IA como OpenAai, Google e Antropic.

Adequado para: