Amazon Nova Sonic: un nuovo modello di lingua AI per più sistemi di dialogo naturale

Pubblicato il: 14 aprile 2025 / Aggiornamento dal: 14 aprile 2025 - Autore: Konrad Wolfenstein

Amazon introduce Nova Sonic prima -Progressivo Modello di lingua AI

Altre conversazioni naturali grazie a Nova Sonic di Amazon

Con Nova Sonic, Amazon presenta un modello di lingua AI avanzato che consente una migliore esperienza dell'utente attraverso la sua standardizzazione della comprensione e della generazione di lingue. Il risultato è conversazioni più fluide, più naturali con gli assistenti digitali. Nova Sonic è caratterizzata da un preciso riconoscimento vocale, tempi di risposta rapidi e adattabilità relativa al contesto e quindi compete direttamente con modelli come GPT-4O e Gemini.

Adatto a:

Mini robot innovativo da Samsung: il robot domestico "Ballie Ai" realizza il robot Astro di Amazon e la competizione Enabot Ebo X

Nuova elaborazione linguistica mediante architettura unificata

I sistemi di intelligenza artificiale convenzionali controllati dalla voce si basano in genere su una combinazione complessa di diversi modelli separati: uno per il riconoscimento vocale per convertire la lingua parlata in testo, un altro modello di linguaggio di grandi dimensioni (LLM) per comprendere e generare risposte e infine un modello di testo a discorso per convertire il testo. Questo approccio frammentato non solo porta a una maggiore complessità, ma perde anche importanti sfumature acustiche come tono, prosodia e linguaggio, che sono essenziali per la conversazione naturale.

Nova Sonic risolve questi problemi con un approccio fondamentalmente diverso: il modello elabora la lingua nativa e combina la comprensione e la generazione del linguaggio in un'architettura uniforme. Questa standardizzazione rivoluzionaria consente al sistema di adattare la risposta del linguaggio generato al contesto acustico e all'input parlato, che porta a un dialogo significativamente più naturale.

API di streaming bidirezionale per interazioni in tempo reale

Uno dei principali punti di forza di Nova Sonic è l'implementazione di un nuovo tipo di API di streaming bidirezionale, che è integrato in Amazon Dampf. Questa API consente:

Streaming simultaneo di contenuti in entrambe le direzioni
Trasmissione audio continua dall'utente al modello
Elaborazione e generazione del linguaggio parallelo
Risposte del modello in tempo reale senza tempi di attesa per dichiarazioni complete

L'architettura segue un protocollo basato su eventi in cui il client e il modello scambiano eventi JSON strutturati che controllano il ciclo di vita della sessione, lo streaming audio, le parole di testo e le interazioni degli strumenti. Questa capacità in tempo reale è cruciale per la bassa latenza e la comunicazione interattiva tra gli utenti e il modello AI.

Comprensione per le naturali sfumature di conversazione

Nova Sonic è particolarmente caratterizzata dalla sua profonda comprensione delle sfumature della comunicazione umana. Il modello può:

Comprendi le pause naturali ed esitazioni del relatore
Aspetta il "momento giusto" per le risposte
Interruzioni di processo elegantemente
Considera la conversazione nonostante il rumore

Queste abilità consentono un flusso di conversazione molto più naturale in cui il modello, ad esempio, assorbe tono, pace e sfumature stilistiche dell'utente e può integrarle nella propria risposta.

Prestazioni eccezionali rispetto alla concorrenza

Amazon posiziona Nova Sonic come leader nella categoria del modello linguistico e sottolinea questa affermazione con vari risultati di riferimento rispetto a prodotti in competizione come OpenAis GPT-4o e Google Gemini Flash 2.0.

Accuratezza del riconoscimento vocale superiore

Nova Sonic dimostra impressionanti capacità di riconoscimento vocale in diverse lingue e condizioni acustiche:

Nei test nel set di dati multilingue Librispeech, il modello ha raggiunto un tasso di errore di Word (OMS) di soli 4,2% in media su inglese, francese, italiano, tedesco e spagnolo
Questo è inferiore del 36,4% rispetto a quelli del modello di trascrizione GPT-4O da OpenAI
Nelle registrazioni audio inglesi dal benchmark della riunione di interazione multi partito (AMI), che consiste in conversazioni reali e rumorose con diversi oratori, Nova Sonic ha un parente inferiore del 24,2% che rispetto a OpenAis GPT-4O TRASCRIZIONE MODEL
Nei test in situazioni di riunioni reali, è migliore del 47% nell'audio in lingua inglese rispetto a GPT-4O Trantion

Bassa latenza e alta efficienza dei costi

Un altro vantaggio decisivo di Nova Sonic è la bassa latenza e l'eccellente prestazione di prezzo:

La latenza percepita dal cliente è in media 1,09 secondi dal momento in cui l'utente termina la conversazione fino al momento in cui il sistema genera la prima risposta in lingua
In confronto, la latenza di OpenAis GPT-4O (Realtime) è di 1,18 secondi e Gemini Flash di Google a 1,41 secondi
Secondo Amazon, Nova Sonic è circa l'80% più economica di OpenAis GPT-4O, il che lo rende il modello di lingua AI più efficiente in termini di costi sul mercato

In test di confronto diretto con modelli in lingua in tempo reale in competizione, Nova Sonic ha raggiunto tassi di vittoria impressionanti:

Nella produzione vocale americana-inglese con una voce maschile, ha raggiunto un tasso vincente del 51% rispetto a GPT-4o e persino il 69,7% contro Gemini
Il modello ha anche tagliato meglio in inglese britannico

Aree versatili di applicazione e integrazioni

Nova Sonic è stata progettata per una vasta gamma di applicazioni e mostra un potenziale speciale in varie aree.

Integrazione nel panorama del prodotto Amazon

Amazon integra già Nova Sonic nel suo ecosistema dei prodotti:

Parti del modello sono già utilizzate in Alexa+, Assistente vocale digitale migliorato di Amazon,
Il modello è disponibile su Amazon Dongonk, la piattaforma di sviluppatori di Amazon per le applicazioni ACI aziendali
Si basa sull'esperienza di Amazon in grandi sistemi di orchestrazione che formano le impalcature tecniche di Alexa

Uso degli strumenti intelligenti e flussi di lavoro agenti

Una delle straordinarie competenze di Nova Sonic è l'uso intelligente di strumenti e servizi esterni:

Il modello supporta gli strumenti per le applicazioni in cui devono essere basate le risposte ai dati dell'azienda, come i piani di prezzo, l'inventario e la disponibilità disponibili
Può inoltrare le richieste degli utenti a diverse API al fine di accedere alle informazioni da Internet in tempo reale, per analizzare fonti di dati proprietarie o agire in applicazioni esterne
Nova Sonic può risolvere richieste complesse dei clienti e svolgere attività per conto del cliente, come "Trova una prenotazione" o "Trova voli alternativi"
Supporta anche il recupero di generazione aumentata (RAG) per l'ancoraggio nei dati aziendali

Usi incrociati -industriali

Nova Sonic è adatta per una varietà di applicazioni in vari settori:

Automazione delle chiamate dei clienti nei contact center
Agenti AI in settori come viaggi, istruzione, assistenza sanitaria e intrattenimento
Istruzione interattiva e apprendimento delle lingue
Sistemi di marketing e assistenza personale in uscita

Diverse aziende hanno già iniziato a utilizzare Nova Sonic:

Asapp utilizza il modello per il suo agente generativo, un altoparlante AI generativo completamente conversabile per i contact center
Education First (EF) usa Nova Sonic per consentire agli studenti di praticare il nuovo vocabolario e migliorare la loro pronuncia in un ambiente di apprendimento dinamico
Le statistiche eseguono il sistema per l'analisi dei dati sportivi

Disponibilità e specifiche tecniche

Nova Sonic è ora disponibile tramite Amazon FedRock nella regione AWS di US East (N. Virginia). Il modello attualmente supporta:

Tre voci espressive, tra cui voci di semina maschile e femminile disponibili in inglese
Generazione di lingue in vari accenti inglesi, tra cui americani e britannici
Il supporto per ulteriori lingue e accenti dovrebbe seguire a breve

Il modello è stato sviluppato pensando allo sviluppo responsabile dell'intelligenza artificiale e ha integrato misure protettive come la moderazione dei contenuti e la filigrana. Amazon fornisce anche schede di servizio AI AWS che descrivono le applicazioni, le restrizioni e le pratiche responsabili dell'IA del modello.

Un passo significativo nello sviluppo di assistenti vocali

Con Nova Sonic, Amazon ha fatto progressi significativi nello sviluppo dei modelli di lingua AI. L'architettura standardizzata per la comprensione del linguaggio e la generazione supera le restrizioni sugli approcci frammentati convenzionali e consente sistemi di dialogo più naturali e sensibili al contesto. L'eccezionale accuratezza del riconoscimento vocale, bassa latenza e posizione di costi Nova Sonic come concorrente serio per stabilire modelli come GPT-4O e Gemini.

L'integrazione nell'ecosistema dei prodotti di Amazon, in particolare in Alexa+, indica che la società sta perseguendo grandi ambizioni nel campo dell'intelligenza generale artificiale (AGI). Con la possibilità di utilizzare strumenti esterni e interagire con i dati dell'azienda, Nova Sonic offre opportunità promettenti per le aziende in vari settori, dal servizio clienti all'istruzione alla sanità.

Mentre l'inglese è attualmente principalmente supportato, l'espansione annunciata ad altre lingue e accenti dovrebbe aumentare l'applicabilità globale del modello in futuro. Nova Sonic segna un passo importante nell'evoluzione degli assistenti digitali, che sono stati spesso percepiti come rigidi e innaturali in passato, verso sistemi di dialogo significativamente più naturali e umani.

Adatto a: