DeepSeek V3.1 – Allarme per OpenAI & Co: l’intelligenza artificiale open source cinese pone nuove sfide ai fornitori affermati

Konrad Wolfenstein

12 mesi fa

DeepSeek V3.1 – Allarme per OpenAI & Co.: l’intelligenza artificiale open source cinese pone nuove sfide ai fornitori affermati – Immagine: Xpert.Digital

Nuovo modello di intelligenza artificiale dalla Cina: questo modello gratuito è 27 volte più economico e sfida direttamente ChatGPT

### Allarme per OpenAI & Co.: la nuova IA cinese è altrettanto potente, ma a basso costo. Cosa c'è dietro? ### DeepSeek V3.1: l'attacco silenzioso all'IA che sta sconvolgendo il mondo della tecnologia ### Dimenticate l'IA costosa: perché questo modello open source cinese sta cambiando tutto ### La nuova super-IA cinese: come Pechino sta mettendo pressione all'Occidente con una strategia radicalmente libera ### Migliore ed economica della concorrenza? Cosa può davvero fare la nuova meravigliosa IA cinese ###

DeepSeek V3.1 rivoluziona (ancora una volta) il panorama dell'IA

L'intelligenza artificiale cinese sta diventando una seria sfida per i giganti tecnologici americani. La startup DeepSeek, con sede a Hangzhou, ha raggiunto un traguardo significativo con il suo ultimo modello, la V3.1, sfidando radicalmente i presupposti tradizionali sullo sviluppo e il finanziamento dell'intelligenza artificiale. Questo modello open source raggiunge le prestazioni dei principali sistemi proprietari a una frazione dei costi di sviluppo e indica la strada verso un nuovo futuro per l'intelligenza artificiale.

Correlato a questo:

DeepSeek: la rivoluzione dell'intelligenza artificiale in Cina all'ombra della sorveglianza – Gravi accuse da Washington

Innovazione tecnica con architettura ibrida

DeepSeek V3.1 si basa su un'architettura avanzata "Mixture of Experts" con un totale di 685 miliardi di parametri, di cui 37 miliardi attivati per token. Questa tecnologia consente un utilizzo delle risorse significativamente più efficiente rispetto ai modelli tradizionali, senza compromettere le prestazioni.

La caratteristica principale del nuovo modello è la sua architettura di inferenza ibrida, in grado di passare da una "modalità di pensiero" a una "modalità non di pensiero". In modalità di pensiero, il sistema sviluppa processi di ragionamento interni più approfonditi ed è ideale per la risoluzione di problemi complessi che richiedono un pensiero logico a più fasi. Al contrario, la modalità non di pensiero fornisce risposte dirette e concise per compiti in cui la velocità è fondamentale.

Un altro progresso tecnico è l'ampliamento della finestra di contesto a 128.000 token, che corrispondono a circa 96.000 parole o a due romanzi da 200 pagine. Questa capacità consente l'elaborazione di documenti estremamente lunghi, la comprensione di interi repository di codice e scenari di dialogo multifase.

L'ulteriore sviluppo è stato ottenuto attraverso un approccio in due fasi all'espansione del contesto. La fase da 32.000 token è stata decuplicata, arrivando a 630 miliardi di token, mentre la fase da 128.000 token è stata aumentata di 3,3 volte, arrivando a 209 miliardi di token. Inoltre, il modello utilizza il formato dati UE8M0 FP8 per una compatibilità ottimale con le moderne architetture hardware.

Parametri di prestazione e benchmark impressionanti

DeepSeek V3.1 ottiene risultati notevoli nei test standardizzati. Nel rinomato Aider Coding Benchmark, il modello ha ottenuto un punteggio del 71,6%, un punteggio che rivaleggia con i modelli leader di OpenAI e Anthropic. Questa performance è particolarmente impressionante considerando il suo costo significativamente inferiore.

Nei compiti matematici, DeepSeek V3.1 supera persino i concorrenti affermati. Nel test Math-500, il modello raggiunge il 90,2%, mentre GPT-40 si ferma al 74,6%. Nel test MMLU-Pro, il sistema è migliorato di 5,3 punti, raggiungendo l'81,2%, e nel benchmark GPQA di ben 9,3 punti, raggiungendo il 68,4%.

Di particolare rilievo è il miglioramento nei compiti di ragionamento multi-fase, dove la versione 3.1 offre prestazioni superiori del 43% rispetto alla versione precedente. Le capacità di programmazione del modello consentono di generare codice privo di errori fino a 700 righe di lunghezza, prestazioni che rivaleggiano con quelle di costose soluzioni proprietarie.

Efficienza dei costi rivoluzionaria

La struttura dei costi di DeepSeek V3.1 ribalta completamente le precedenti ipotesi sullo sviluppo dell'intelligenza artificiale. Mentre un'attività di programmazione con la V3.1 costa circa un dollaro, sistemi comparabili costano quasi 70 dollari per attività simili. Questa drastica riduzione dei costi rende la tecnologia di intelligenza artificiale avanzata accessibile anche alle aziende e agli sviluppatori più piccoli.

Secondo l'azienda, i costi di sviluppo del modello V3 di base ammontavano a soli 5,6 milioni di dollari circa, una frazione delle centinaia di milioni di dollari che le aziende americane spendono per progetti analoghi. Questa efficienza è stata ottenuta grazie a metodi di formazione innovativi e all'utilizzo di hardware meno potente, ma meno costoso.

Il prezzo dell'API di DeepSeek è significativamente inferiore a quello della concorrenza. Il modello di chat costa 0,07 dollari per milione di token di input per i cache hit e 1,10 dollari per milione di token di output. Il modello di ragionamento costa 0,14 dollari per i token di input e 2,19 dollari per i token di output. In confronto, OpenAI addebita circa 2-2,50 dollari per milione di token di output, mentre DeepSeek ne richiede solo 0,014.

Importanza strategica per la competizione globale dell'IA

I successi di DeepSeek hanno implicazioni di vasta portata per il panorama globale dell'intelligenza artificiale. L'azienda dimostra che le prestazioni avanzate dell'intelligenza artificiale non richiedono più le ingenti risorse e gli approcci proprietari che hanno caratterizzato lo sviluppo dell'intelligenza artificiale negli Stati Uniti fino ad oggi. Questo sviluppo mette in discussione le fondamenta degli attuali modelli di business.

La leadership cinese attribuisce grande importanza strategica a DeepSeek, come dimostra l'incontro tra il fondatore Liang Wenfeng e il Premier Li Qiang. L'azienda è considerata un elemento chiave nell'ambizione della Cina di diventare leader mondiale nell'intelligenza artificiale entro il 2030.

La strategia open source di DeepSeek consente ad altre aziende e ricercatori in tutto il mondo di sfruttare i suoi progressi e sviluppare le proprie innovazioni. Ciò promuove uno sviluppo decentralizzato della tecnologia di intelligenza artificiale e riduce la dipendenza dai singoli giganti della tecnologia.

Background e struttura aziendale

DeepSeek è stata fondata a Hangzhou nel 2023 da Liang Wenfeng ed è interamente finanziata dall'hedge fund cinese High-Flyer. Wenfeng, nato nel 1985, figlio di un insegnante di scuola elementare, ha sviluppato un interesse per l'applicazione dell'intelligenza artificiale nel settore finanziario durante gli studi presso l'Università di Zhejiang.

Nel 2016, Wenfeng ha fondato High-Flyer, un hedge fund che utilizza l'apprendimento automatico per strategie di trading quantitative. Entro il 2021, la società ha completato la transizione verso approcci di trading basati sull'intelligenza artificiale, diventando uno dei principali fondi quantitativi in Cina, con oltre 100 miliardi di RMB di asset in gestione.

Ancor prima di fondare DeepSeek, Wenfeng aveva iniziato ad acquistare migliaia di GPU Nvidia, inizialmente ridicolizzate come l'eccentrico hobby di un miliardario. Questo lungimirante investimento in hardware ha poi permesso all'azienda di sviluppare modelli di intelligenza artificiale competitivi nonostante le restrizioni all'esportazione statunitensi.

Sicurezza dei dati UE/DE | Integrazione di una piattaforma di intelligenza artificiale indipendente e multi-data source per tutte le esigenze aziendali

Piattaforme di intelligenza artificiale indipendenti come alternativa strategica per le aziende europee - Immagine: Xpert.Digital

AI Game Changer: la piattaforma di intelligenza artificiale più flessibile - Soluzioni su misura che riducono i costi, migliorano le decisioni e aumentano l'efficienza

Piattaforma di intelligenza artificiale indipendente: integra tutte le fonti di dati aziendali rilevanti

Integrazione rapida dell'IA: soluzioni di IA su misura per le aziende in poche ore o giorni, anziché mesi
Infrastruttura flessibile: basata su cloud o hosting nel proprio data center (Germania, Europa, libera scelta della posizione)

Massima sicurezza dei dati: il suo utilizzo negli studi legali ne è una prova inconfutabile
Distribuzione su un'ampia varietà di fonti di dati aziendali
Scelta di modelli di intelligenza artificiale propri o diversi (DE, UE, USA, CN)

Maggiori informazioni qui:

Piattaforme di intelligenza artificiale indipendenti vs. hyperscaler: qual è la soluzione più adatta?

Chip, algoritmi, innovazione: il percorso di DeepSeek verso la vetta del mondo

Impatto dei controlli sulle esportazioni degli Stati Uniti

Il successo di DeepSeek è particolarmente notevole se si considerano le restrizioni statunitensi all'esportazione di chip di intelligenza artificiale ad alte prestazioni verso la Cina. Le sanzioni miravano a limitare la capacità della Cina di sviluppare sistemi di intelligenza artificiale avanzati, ma DeepSeek dimostra che approcci software innovativi e un utilizzo efficiente delle risorse possono superare queste limitazioni.

L'azienda ha utilizzato chip H800 meno potenti, approvati per l'esportazione in Cina, ma ha comunque ottenuto prestazioni eccellenti grazie ad algoritmi ottimizzati e metodi di addestramento efficienti. Questo approccio mette in discussione l'efficacia delle sanzioni tecnologiche e indica percorsi alternativi per lo sviluppo dell'intelligenza artificiale.

Gli esperti considerano la svolta di DeepSeek un punto di svolta che potrebbe cambiare radicalmente le attuali stime sulle capacità e il potenziale dell'intelligenza artificiale cinese. Lo sviluppo suggerisce che le innovazioni nell'ottimizzazione del software potrebbero essere più importanti della mera superiorità hardware.

Correlato a questo:

Il recupero della Cina nell'intelligenza artificiale: il caso DeepSeek e l'uso strategico dei dati

Open Source come vantaggio competitivo

La strategia open source di DeepSeek offre diversi vantaggi strategici. Sviluppatori e aziende di tutto il mondo possono eseguire, personalizzare e integrare il modello localmente nei propri progetti senza dover ricorrere ai servizi cloud. Questo è particolarmente importante per le applicazioni che trattano dati sensibili e per le aziende che desiderano mantenere il controllo sulle proprie informazioni.

Lo sviluppo basato sulla comunità consente una correzione più rapida dei bug, miglioramenti continui e un'ampia base di collaboratori. Allo stesso tempo, l'approccio open source democratizza l'accesso alle tecnologie di intelligenza artificiale avanzate e promuove l'innovazione, anche nelle aziende più piccole e nei paesi in via di sviluppo.

A differenza dei modelli proprietari accessibili solo tramite API o piattaforme cloud, l'intelligenza artificiale open source offre disponibilità a lungo termine e indipendenza dai singoli fornitori. Gli utenti non devono preoccuparsi di aumenti di prezzo, restrizioni di accesso o interruzioni del servizio.

Svolte e innovazioni tecnologiche

DeepSeek V3.1 integra diverse tecnologie innovative che ne garantiscono l'eccezionale efficienza. L'architettura multi-head Latent Attention comprime le cache chiave-valore utilizzando vettori latenti, riducendo il consumo di memoria e il sovraccarico computazionale durante l'inferenza.

Il metodo di predizione multi-token consente a ciascun token di prevedere simultaneamente più token futuri. Ciò supera un significativo collo di bottiglia dei tradizionali modelli autoregressivi e migliora sia l'accuratezza che la velocità di inferenza.

L'utilizzo di un training a 8 bit riduce significativamente i requisiti di memoria e i costi senza compromettere l'accuratezza. Questa tecnica è stata a lungo considerata problematica, ma DeepSeek dimostra che, se implementata correttamente, produce risultati paragonabili ai metodi tradizionali.

Reazioni e impatti del mercato

L'annuncio di DeepSeek V3.1 ha scatenato una forte reazione sui mercati finanziari. Nvidia ha perso oltre 600 miliardi di dollari di capitalizzazione di mercato, la più grande perdita singola nella storia del mercato azionario statunitense. Anche altre aziende di hardware per l'intelligenza artificiale hanno subito significativi cali del prezzo delle azioni.

Investitori e analisti stanno riconsiderando le loro valutazioni sul settore dell'intelligenza artificiale. Il successo di DeepSeek mette in discussione l'idea che ingenti investimenti in hardware e sviluppo proprietario siano prerequisiti necessari per un'intelligenza artificiale all'avanguardia.

Le aziende occidentali stanno già testando i modelli DeepSeek nei loro flussi di lavoro. Un esempio importante è Merck, il cui Chief Data Officer ha pubblicamente dimostrato l'integrazione di DeepSeek come una delle diverse opzioni di intelligenza artificiale nei processi interni.

Sviluppi futuri e prospettive

DeepSeek presenta la versione 3.1 come il primo passo verso l'"era degli agenti" dell'IA. Il modello è stato specificamente ottimizzato per migliorare l'utilizzo degli strumenti e per gestire attività complesse che richiedono l'intervento dell'agente. Le ottimizzazioni post-addestramento hanno portato a significativi miglioramenti nell'utilizzo di strumenti esterni e nella gestione di attività di ricerca complesse.

La velocità di sviluppo di DeepSeek suggerisce che un modello V4 potrebbe essere rilasciato prima della prossima versione R2 di OpenAI. Questa dinamica potrebbe accelerare i cicli di sviluppo tradizionali del settore dell'intelligenza artificiale e stabilire nuovi standard per la frequenza di aggiornamento.

I successi di DeepSeek stanno già ispirando altre aziende cinesi e ricercatori di intelligenza artificiale in tutto il mondo. I modelli open source sono sempre più visti come una valida alternativa alle soluzioni proprietarie, il che potrebbe portare a un panorama dell'intelligenza artificiale più diversificato e competitivo.

Sfide e critiche

Nonostante i suoi notevoli risultati, DeepSeek ha anche attirato critiche. Come altri modelli di intelligenza artificiale cinesi, DeepSeek è soggetto ad alcune misure di censura, applicabili a temi politicamente sensibili. Tuttavia, queste restrizioni possono spesso essere aggirate attraverso modifiche tecniche.

La trasparenza sui dati e sui metodi di addestramento è limitata. Si ipotizza che l'addestramento si basi in parte sulle risposte di ChatGPT, poiché DeepSeek a volte afferma di essere ChatGPT stesso. Queste ambiguità sollevano dubbi sull'originalità e potenziali problemi di copyright.

Il rapido sviluppo e il basso prezzo dei modelli di deep-seeking sollevano anche preoccupazioni sulla sostenibilità del modello di business. I critici si chiedono se i prezzi estremamente bassi possano essere mantenuti nel lungo termine o se facciano parte di una strategia di penetrazione del mercato.

Implicazioni globali per l'industria dell'intelligenza artificiale

DeepSeek V3.1 segna una svolta nello sviluppo globale dell'intelligenza artificiale. Il modello dimostra che approcci software innovativi e un utilizzo efficiente delle risorse possono essere più importanti di ingenti investimenti di capitale e dell'accesso all'hardware più recente. Questa scoperta influenzerà le strategie di tutte le principali aziende di intelligenza artificiale.

La democratizzazione delle tecnologie di intelligenza artificiale avanzate attraverso modelli open source potrebbe portare a una distribuzione più equa delle capacità di intelligenza artificiale a livello mondiale. Paesi e aziende precedentemente esclusi da costi elevati o barriere tecniche avrebbero accesso a tecnologie all'avanguardia.

Allo stesso tempo, il successo di DeepSeek mette in discussione l'efficacia delle sanzioni tecnologiche e dei controlli sulle esportazioni. La sua capacità di raggiungere prestazioni di livello mondiale con risorse limitate potrebbe incoraggiare altri paesi a perseguire approcci simili e a sviluppare i propri ecosistemi di intelligenza artificiale.

DeepSeek V3.1 rappresenta più di un semplice modello di intelligenza artificiale: simboleggia un cambiamento fondamentale nel modo in cui l'intelligenza artificiale viene sviluppata, finanziata e implementata. La combinazione di innovazione tecnologica, sviluppo conveniente e disponibilità open source crea nuove opportunità e pone sfide impegnative ai leader di mercato affermati. Gli sviluppi futuri mostreranno se questo approccio plasmerà il futuro del settore dell'intelligenza artificiale.

Siamo qui per te - Consulenza - Pianificazione - Implementazione - Gestione Progetti

☑️ Supporto alle PMI in strategia, consulenza, pianificazione e implementazione

☑️ Creazione o riallineamento della strategia di IA

☑️ Sviluppo aziendale pionieristico

Konrad Wolfenstein

Sarei felice di fungere da tuo consulente personale.

Puoi contattarmi compilando il modulo di contatto qui sotto oppure chiamandomi al numero +49 7348 4088 965 .

Non vedo l'ora di iniziare il nostro progetto comune.

Scrivimi

➡️ Richiesta di videochiamata 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital è un hub per l'industria focalizzato sulla digitalizzazione, l'ingegneria meccanica, la logistica/intralogistica e il fotovoltaico.

Con la nostra soluzione di sviluppo aziendale a 360° supportiamo aziende rinomate dalla fase di avvio del nuovo business fino al post-vendita.

Market intelligence, smarketing, marketing automation, sviluppo di contenuti, PR, campagne email, social media personalizzati e lead nurturing sono parte dei nostri strumenti digitali.

Per maggiori informazioni visita: www.xpert.digital - www.xpert.solar - www.xpert.plus

Rimaniamo in contatto