Pubblicato il: 14 aprile 2025 / Aggiornamento dal: 14 aprile 2025 - Autore: Konrad Wolfenstein
Amazon introduce Nova Sonic prima -Progressivo Modello di lingua AI
Altre conversazioni naturali grazie a Nova Sonic di Amazon
Con Nova Sonic, Amazon presenta un modello di lingua AI avanzato che consente una migliore esperienza dell'utente attraverso la sua standardizzazione della comprensione e della generazione di lingue. Il risultato è conversazioni più fluide, più naturali con gli assistenti digitali. Nova Sonic è caratterizzata da un preciso riconoscimento vocale, tempi di risposta rapidi e adattabilità relativa al contesto e quindi compete direttamente con modelli come GPT-4O e Gemini.
Adatto a:
- Mini robot innovativo da Samsung: il robot domestico "Ballie Ai" realizza il robot Astro di Amazon e la competizione Enabot Ebo X
Nuova elaborazione linguistica mediante architettura unificata
I sistemi di intelligenza artificiale convenzionali controllati dalla voce si basano in genere su una combinazione complessa di diversi modelli separati: uno per il riconoscimento vocale per convertire la lingua parlata in testo, un altro modello di linguaggio di grandi dimensioni (LLM) per comprendere e generare risposte e infine un modello di testo a discorso per convertire il testo. Questo approccio frammentato non solo porta a una maggiore complessità, ma perde anche importanti sfumature acustiche come tono, prosodia e linguaggio, che sono essenziali per la conversazione naturale.
Nova Sonic risolve questi problemi con un approccio fondamentalmente diverso: il modello elabora la lingua nativa e combina la comprensione e la generazione del linguaggio in un'architettura uniforme. Questa standardizzazione rivoluzionaria consente al sistema di adattare la risposta del linguaggio generato al contesto acustico e all'input parlato, che porta a un dialogo significativamente più naturale.
API di streaming bidirezionale per interazioni in tempo reale
Uno dei principali punti di forza di Nova Sonic è l'implementazione di un nuovo tipo di API di streaming bidirezionale, che è integrato in Amazon Dampf. Questa API consente:
- Streaming simultaneo di contenuti in entrambe le direzioni
- Trasmissione audio continua dall'utente al modello
- Elaborazione e generazione del linguaggio parallelo
- Risposte del modello in tempo reale senza tempi di attesa per dichiarazioni complete
L'architettura segue un protocollo basato su eventi in cui il client e il modello scambiano eventi JSON strutturati che controllano il ciclo di vita della sessione, lo streaming audio, le parole di testo e le interazioni degli strumenti. Questa capacità in tempo reale è cruciale per la bassa latenza e la comunicazione interattiva tra gli utenti e il modello AI.
Comprensione per le naturali sfumature di conversazione
Nova Sonic è particolarmente caratterizzata dalla sua profonda comprensione delle sfumature della comunicazione umana. Il modello può:
- Comprendi le pause naturali ed esitazioni del relatore
- Aspetta il "momento giusto" per le risposte
- Interruzioni di processo elegantemente
- Considera la conversazione nonostante il rumore
Queste abilità consentono un flusso di conversazione molto più naturale in cui il modello, ad esempio, assorbe tono, pace e sfumature stilistiche dell'utente e può integrarle nella propria risposta.
Prestazioni eccezionali rispetto alla concorrenza
Amazon posiziona Nova Sonic come leader nella categoria del modello linguistico e sottolinea questa affermazione con vari risultati di riferimento rispetto a prodotti in competizione come OpenAis GPT-4o e Google Gemini Flash 2.0.
Accuratezza del riconoscimento vocale superiore
Nova Sonic dimostra impressionanti capacità di riconoscimento vocale in diverse lingue e condizioni acustiche:
- Nei test nel set di dati multilingue Librispeech, il modello ha raggiunto un tasso di errore di Word (OMS) di soli 4,2% in media su inglese, francese, italiano, tedesco e spagnolo
- Questo è inferiore del 36,4% rispetto a quelli del modello di trascrizione GPT-4O da OpenAI
- Nelle registrazioni audio inglesi dal benchmark della riunione di interazione multi partito (AMI), che consiste in conversazioni reali e rumorose con diversi oratori, Nova Sonic ha un parente inferiore del 24,2% che rispetto a OpenAis GPT-4O TRASCRIZIONE MODEL
- Nei test in situazioni di riunioni reali, è migliore del 47% nell'audio in lingua inglese rispetto a GPT-4O Trantion
Bassa latenza e alta efficienza dei costi
Un altro vantaggio decisivo di Nova Sonic è la bassa latenza e l'eccellente prestazione di prezzo:
- La latenza percepita dal cliente è in media 1,09 secondi dal momento in cui l'utente termina la conversazione fino al momento in cui il sistema genera la prima risposta in lingua
- In confronto, la latenza di OpenAis GPT-4O (Realtime) è di 1,18 secondi e Gemini Flash di Google a 1,41 secondi
- Secondo Amazon, Nova Sonic è circa l'80% più economica di OpenAis GPT-4O, il che lo rende il modello di lingua AI più efficiente in termini di costi sul mercato
In test di confronto diretto con modelli in lingua in tempo reale in competizione, Nova Sonic ha raggiunto tassi di vittoria impressionanti:
- Nella produzione vocale americana-inglese con una voce maschile, ha raggiunto un tasso vincente del 51% rispetto a GPT-4o e persino il 69,7% contro Gemini
- Il modello ha anche tagliato meglio in inglese britannico
Aree versatili di applicazione e integrazioni
Nova Sonic è stata progettata per una vasta gamma di applicazioni e mostra un potenziale speciale in varie aree.
Integrazione nel panorama del prodotto Amazon
Amazon integra già Nova Sonic nel suo ecosistema dei prodotti:
- Parti del modello sono già utilizzate in Alexa+, Assistente vocale digitale migliorato di Amazon,
- Il modello è disponibile su Amazon Dongonk, la piattaforma di sviluppatori di Amazon per le applicazioni ACI aziendali
- Si basa sull'esperienza di Amazon in grandi sistemi di orchestrazione che formano le impalcature tecniche di Alexa
Uso degli strumenti intelligenti e flussi di lavoro agenti
Una delle straordinarie competenze di Nova Sonic è l'uso intelligente di strumenti e servizi esterni:
- Il modello supporta gli strumenti per le applicazioni in cui devono essere basate le risposte ai dati dell'azienda, come i piani di prezzo, l'inventario e la disponibilità disponibili
- Può inoltrare le richieste degli utenti a diverse API al fine di accedere alle informazioni da Internet in tempo reale, per analizzare fonti di dati proprietarie o agire in applicazioni esterne
- Nova Sonic può risolvere richieste complesse dei clienti e svolgere attività per conto del cliente, come "Trova una prenotazione" o "Trova voli alternativi"
- Supporta anche il recupero di generazione aumentata (RAG) per l'ancoraggio nei dati aziendali
Usi incrociati -industriali
Nova Sonic è adatta per una varietà di applicazioni in vari settori:
- Automazione delle chiamate dei clienti nei contact center
- Agenti AI in settori come viaggi, istruzione, assistenza sanitaria e intrattenimento
- Istruzione interattiva e apprendimento delle lingue
- Sistemi di marketing e assistenza personale in uscita
Diverse aziende hanno già iniziato a utilizzare Nova Sonic:
- Asapp utilizza il modello per il suo agente generativo, un altoparlante AI generativo completamente conversabile per i contact center
- Education First (EF) usa Nova Sonic per consentire agli studenti di praticare il nuovo vocabolario e migliorare la loro pronuncia in un ambiente di apprendimento dinamico
- Le statistiche eseguono il sistema per l'analisi dei dati sportivi
Disponibilità e specifiche tecniche
Nova Sonic è ora disponibile tramite Amazon FedRock nella regione AWS di US East (N. Virginia). Il modello attualmente supporta:
- Tre voci espressive, tra cui voci di semina maschile e femminile disponibili in inglese
- Generazione di lingue in vari accenti inglesi, tra cui americani e britannici
- Il supporto per ulteriori lingue e accenti dovrebbe seguire a breve
Il modello è stato sviluppato pensando allo sviluppo responsabile dell'intelligenza artificiale e ha integrato misure protettive come la moderazione dei contenuti e la filigrana. Amazon fornisce anche schede di servizio AI AWS che descrivono le applicazioni, le restrizioni e le pratiche responsabili dell'IA del modello.
Un passo significativo nello sviluppo di assistenti vocali
Con Nova Sonic, Amazon ha fatto progressi significativi nello sviluppo dei modelli di lingua AI. L'architettura standardizzata per la comprensione del linguaggio e la generazione supera le restrizioni sugli approcci frammentati convenzionali e consente sistemi di dialogo più naturali e sensibili al contesto. L'eccezionale accuratezza del riconoscimento vocale, bassa latenza e posizione di costi Nova Sonic come concorrente serio per stabilire modelli come GPT-4O e Gemini.
L'integrazione nell'ecosistema dei prodotti di Amazon, in particolare in Alexa+, indica che la società sta perseguendo grandi ambizioni nel campo dell'intelligenza generale artificiale (AGI). Con la possibilità di utilizzare strumenti esterni e interagire con i dati dell'azienda, Nova Sonic offre opportunità promettenti per le aziende in vari settori, dal servizio clienti all'istruzione alla sanità.
Mentre l'inglese è attualmente principalmente supportato, l'espansione annunciata ad altre lingue e accenti dovrebbe aumentare l'applicabilità globale del modello in futuro. Nova Sonic segna un passo importante nell'evoluzione degli assistenti digitali, che sono stati spesso percepiti come rigidi e innaturali in passato, verso sistemi di dialogo significativamente più naturali e umani.
Adatto a:
La tua trasformazione AI, l'integrazione dell'IA ed esperto del settore della piattaforma AI
☑️ La nostra lingua commerciale è l'inglese o il tedesco
☑️ NOVITÀ: corrispondenza nella tua lingua nazionale!
Sarei felice di servire te e il mio team come consulente personale.
Potete contattarmi compilando il modulo di contatto o semplicemente chiamandomi al numero +49 89 89 674 804 (Monaco) . Il mio indirizzo email è: wolfenstein ∂ xpert.digital
Non vedo l'ora di iniziare il nostro progetto comune.