DeepSeek V3: Modello AI migliorato con impressionanti prestazioni di intelligenza artificiale supera i migliori modelli nei parametri di riferimento

Pubblicato il 26 marzo 2025 / AGGIORNAMENTO DA: 26 marzo 2025 - Autore: Konrad Wolfenstein

DeepSeek V3 migliora il ragionamento e la programmazione

Il futuro di The Open Source Ki: DeepSeek pubblica l'aggiornamento V3

Il 25 marzo 2025, DeepSeek ha rilasciato un importante aggiornamento del suo modello di lingua V3 chiamato Deepseek-V3-0324. Questa nuova versione mostra miglioramenti significativi in aree come il ragionamento, la programmazione e lo sviluppo del frontend. Con i risultati di riferimento impressionanti e la possibilità di funzionare su un potente hardware di consumo, DeepSeek-V3-0324 si posiziona come un modello di intelligenza artificiale open source che sfida le soluzioni proprietarie.

Adatto a:

Analisi comparativa dei principali modelli AI: Google Gemini 2.0, DeepSeek R2 e GPT-4.5 da OpenAai

Fondazioni tecnologiche e architettura

Miscela di esperti come tecnologia chiave

DeepSeek V3-0324 si basa su un'architettura innovativa della miscela di esperti (MOE) che la distingue da molti altri modelli AI. Questa architettura consente al sistema di non attivare tutte le parti del modello per ciascuna attività, ma solo i componenti specifici richiesti per la rispettiva richiesta. Funziona come un team di specialisti, in cui solo l'esperto giusto viene utilizzato per risolvere un problema.

Il modello attuale ha un totale di 685 miliardi di parametri, di cui solo circa 37 miliardi di persone sono attivate per ciascuna attività. Questa attivazione selettiva consente un'elaborazione significativamente più efficiente e riduce significativamente i requisiti delle risorse.

Tecniche innovative per migliori prestazioni

DeepSeek-V3-0324 introduce due innovazioni tecniche centrali che aumentano le sue prestazioni:

Attenzione latente multi-testa (MLA): questa tecnologia comprime la cache del valore chiave in un vettore latente, che ottimizza l'elaborazione di testi più lunghi e riduce in modo significativo il requisito di memoria.
Multi-Token Prediction (MTP): abilita la generazione simultanea di diversi token, che aumenta la velocità di uscita fino all'80 percento.
Inoltre, DeepSeek utilizza l'aritmetica di precisione mista V3, in cui vengono eseguiti la combaritmetica lubrificante con un numero di diverse lunghezze e precisione nella stessa operazione. La ridotta precisione guadagna tempo senza influire significativamente sulla qualità dei risultati.

Miglioramenti delle prestazioni e risultati di riferimento

Progressi significativi in diverse aree

DeepSeek-V3-0324 mostra notevoli miglioramenti rispetto al suo predecessore in diverse aree chiave:

Capacità di ragionamento: i risultati di riferimento mostrano aumenti significativi, in particolare per compiti complessi:
- MMLU-PRO: da 75,9 a 81,2 (+5,3 punti)
- GPQA: da 59.1 a 68,4 (+9,3 punti)
- AIME (American Invitational Mathematics Examination): da 39,6 a 59,4 (+19,8 punti)
- LiveCodeBech: da 39.2 a 49.2 (+10,0 punti)
Sviluppo del frontend: migliorate competenze per creare codici eseguibili e siti Web e frontend di gioco esteticamente attraenti.
Competenze linguistiche cinesi: migliorate abilità di scrittura con stile migliore e qualità nei testi di medio o lungo formato, qualità della traduzione ottimizzata e lettera di lettera.

Posizionamento nella competizione AI

DeepSeek-V3-0324 è ora il modello non lettura più votato nell'indice di intelligence dell'analisi artificiale. Supera tutti i modelli di non lettura proprietari, tra cui Gemini 2.0 Pro, Claude 3.7 Sonnet e Llama 3.3 70B. Nell'indice di intelligence, si colloca direttamente dietro il modello R1 di DeepSeek e altri modelli di ragionamento di OpenAai, Antropic e Alibaba.

In test come Drop, DeepSeek ha raggiunto un impressionante 91,6%, mentre GPT-4O ha raggiunto l'83,7%e Claude 3,5 88,3%. Questi risultati sottolineano la competitività del modello rispetto alle principali soluzioni proprietarie.

Efficienza e accessibilità

Ottimizzazione delle risorse e requisiti hardware

Una delle proprietà più notevoli di DeepSeek-V3-0324 è la sua efficienza. Attraverso l'architettura MOE e altre ottimizzazioni, il modello può essere gestito su potenti dispositivi di consumo come il Mac Studio con M3 Ultra Chip, dove si ottengono velocità di oltre 20 token al secondo.

La versione a 4 bit del modello richiede solo circa 352 GB di spazio di archiviazione e consuma meno di 200 watt durante l'inferenza, significativamente meno dei sistemi di intelligenza artificiale convenzionali, che spesso richiedono diversi chilowatt. Questa efficienza potrebbe ridefinire i requisiti per l'infrastruttura AI.

Apertura di licenze e disponibilità

Contrariamente ai concorrenti occidentali come OpenAai o Antropic, che offrono i loro modelli solo tramite API a pagamento, DeepSeek-V3-0324 è stato pubblicato sotto la co-licenza. Ciò consente l'uso gratuito e gli inserti commerciali senza restrizioni.

Il modello è disponibile su varie piattaforme:

Tramite l'app DeepSeek
Sul sito ufficiale
Tramite interfaccia di programmazione (API)
Come installazione sui tuoi computer
Informazioni su Microsoft Azure Cloud

Adatto a:

Economic Turbo Deepseek: la nuova AI Hope cinese come motore economico?

Storia e visione aziendale

Dal mondo finanziario alla ricerca AI

DeepSeek è stata fondata nell'aprile 2023 da Liang Wenfeng, che in precedenza aveva fondato Heggink Heg-Flyer nel 2015. L'hedge fund si era specializzato in strategie commerciali matematiche e supportate dall'intelligenza artificiale, che gettavano le basi per il successivo sviluppo dell'intelligenza artificiale.

La società è stata fondata sullo sfondo del divieto di esportazione imposto dagli Stati Uniti da chip ad alta tecnologia alla Cina. DeepSeek persegue l'obiettivo strategico di fornire un'alternativa potente e competitiva alle soluzioni dell'IA occidentale e allo stesso tempo rafforzando la sovranità tecnologica della Cina.

Filosofia dell'apertura

Secondo Liang Wenfeng, i risultati e i modelli di ricerca dell'azienda sono sempre pubblicati in licenze open source, che fa parte della cultura aziendale. Questa apertura è in contrasto con numerosi sistemi di intelligenza artificiale proprietari che sono caratterizzati da licenze restrittive.

"Crediamo fermamente che il 99 percento del successo del duro lavoro e solo l'uno per cento deriva dal talento", la società descrive la sua filosofia sul suo sito web.

Outlook e sviluppi futuri

Base per nuovi modelli

DeepSeek-V3-0324 potrebbe servire da base per un nuovo modello di ragionamento chiamato R2, la cui pubblicazione è prevista nelle prossime settimane. L'attuale modello R1 aveva già attirato l'attenzione attraverso le sue capacità di risoluzione dei problemi.

Il continuo ulteriore sviluppo dei modelli DeepSeek indica una tabella di marcia dinamica, che può anche includere supporto multimodale e altre funzioni orientate al futuro nell'ecosistema DeepSeek.

Democratizzazione dell'IA: come DeepSeek-V3-0324 stabilisce nuovi standard

DeepSeek-V3-0324 rappresenta progressi significativi nello sviluppo di grandi modelli vocali. Attraverso la sua architettura innovativa, prestazioni impressionanti e licenze aperte, sfida i modelli proprietari stabiliti e potrebbero guidare la democratizzazione delle tecnologie di intelligenza artificiale.

La combinazione di innovazione tecnologica, efficienza e accessibilità rende DeepSeek-V3-0324 una pietra miliare importante nel panorama dell'IA. Con la sua capacità di correre sull'hardware dei consumatori e le sue migliori capacità in settori come il ragionamento, la programmazione e lo sviluppo del frontend, Deepseek si posiziona come un serio concorrente per le principali aziende di intelligenza artificiale come OpenAai, Google e Antropico.

Adatto a: