Amazon Nova Sonic: nowy model języka AI dla bardziej naturalnych systemów dialogowych

Opublikowano: 14 kwietnia 2025 / Aktualizacja od: 14 kwietnia 2025 r. - Autor: Konrad Wolfenstein

Amazon wprowadza Nova Sonic przed -progresywny model językowy

Więcej naturalnych rozmów dzięki Amazon Nova Sonic

Dzięki Nova Sonic Amazon przedstawia zaawansowany model języka AI, który umożliwia lepszą wrażenia użytkownika poprzez standaryzację zrozumienia i generowania języka. Rezultatem jest bardziej płynne, bardziej naturalne rozmowy z asystentami cyfrowymi. Nova Sonic charakteryzuje się precyzyjnym rozpoznawaniem mowy, szybkim czasem reakcji i kontekstu adaptacyjnym, a zatem konkuruje bezpośrednio z modelami takimi jak GPT-4O i Gemini.

Nadaje się do:

Innowacyjny mini robot z Samsung: Household Robot „Ballie AI” sprawia, że Amazon's Astro Robot i Enabot Ebo X Competition

Nowe przetwarzanie języka przez zunifikowaną architekturę

Konwencjonalne systemy AI kontrolowane głosem są zazwyczaj oparte na złożonej kombinacji kilku oddzielnych modeli: jeden dla rozpoznawania mowy, aby przekonwertować język mówiony na tekst, inny duży model języka (LLM) do zrozumienia i generowania odpowiedzi, a wreszcie modelem tekstu na mowę, aby przekonwertować tekst z powrotem na język. To rozdrobnione podejście prowadzi nie tylko do większej złożoności, ale także traci ważne niuanse akustyczne, takie jak ton, prozodia i mowa, które są niezbędne do naturalnej rozmowy.

Nova Sonic rozwiązuje te problemy z zasadniczo odmiennym podejściem: model przetwarza język natywny i łączy zrozumienie języka i generowanie w jednolitej architekturze. Ta rewolucyjna standaryzacja umożliwia systemowi dostosowanie wygenerowanej odpowiedzi językowej do kontekstu akustycznego i wkładu mówionego, co prowadzi do znacznie bardziej naturalnego dialogu.

Dwukierunkowy interfejs API przesyłania strumieniowego dla interakcji w czasie rzeczywistym

Jednym z podstawowych stron Nova Sonic jest wdrożenie nowego typu dwukierunkowego interfejsu API przesyłania strumieniowego, który jest zintegrowany z Amazon Dampf. Ten API umożliwia:

Jednoczesne przesyłanie treści w obu kierunkach
Ciągła transmisja audio z użytkownika na model
Przetwarzanie i generowanie języka równoległego
Model w czasie rzeczywistym odpowiada bez czasu oczekiwania na pełne stwierdzenia

Architektura jest zgodna z protokołem opartym na zdarzeniach, w którym klienta i modele wymiany zdarzenia JSON, które kontrolują cykl życia sesji, przesyłanie strumieniowe dźwięku, słowa tekstowe i interakcje narzędzi. Ta zdolność w czasie rzeczywistym ma kluczowe znaczenie dla niskiego opóźnienia i interaktywnej komunikacji między użytkownikami a modelem AI.

Zrozumienie naturalnych niuansów rozmowy

Nova Sonic szczególnie charakteryzuje się jego głębokim rozumieniem niuansów ludzkiej komunikacji. Model może:

Zrozum naturalne przerwy i wahanie mówcy
Poczekaj na „właściwy czas” na odpowiedzi
Elegancko przerywają przerwę
Rozważ rozmowę pomimo hałasu

Umiejętności te umożliwiają znacznie bardziej naturalny przepływ rozmowy, w której model, na przykład, pochłania ton, tempo i niuanse stylistyczne użytkownika i może zintegrować je z własną odpowiedzią.

Znakomita wydajność w porównaniu z konkurencją

Amazon pozycjonuje Nova Sonic jako lidera w kategorii modelu języka i podkreśla to twierdzenie o różnych wynikach porównawczych w porównaniu z konkurencyjnymi produktami, takimi jak OpenAis GPT-4O i Google's Gemini Flash 2.0.

Doskonała dokładność rozpoznawania mowy

Nova Sonic pokazuje imponujące zdolności rozpoznawania mowy w różnych językach i warunkach akustycznych:

W testach w zestawie danych wielojęzycznych Libriseeech model osiągnął poziom błędu (który) wynoszący średnio tylko 4,2% w stosunku do angielskiego, francuskiego, włoskiego, niemieckiego i hiszpańskiego
Jest to 36,4% niższe niż w modelu transkrypcji GPT-4O z Openai
W angielskich nagraniach audio z rozszerzonego interakcji Multi Party (AMI), który składa się z prawdziwych, hałaśliwych rozmów z kilkoma mówcami, Nova Sonic ma 24,2% niższy względny, który w porównaniu z OpenAis GPT-4O transkrybując model transkrypcyjny model transkrypcyjny
W testach w rzeczywistych sytuacjach spotkania jest 47% lepiej w anglojęzycznym dźwięku niż GPT-4O transkrybuj

Niskie opóźnienia i wysoka wydajność kosztów

Kolejną decydującą zaletą Nova Sonic jest niskie opóźnienia i doskonała cena:

Opóźnienie postrzegane przez klienta wynosi średnio 1,09 sekundy od czasu, gdy użytkownik kończy rozmowę do czasu, gdy system generuje pierwszą odpowiedź językowa
Dla porównania, opóźnienie OpenAis GPT-4O (czas rzeczywistego) wynosi 1,18 sekundy, a Google's Gemini Flash 2.0 po 1,41 sekundy
Według Amazon, Nova Sonic jest o około 80% tańszy niż OpenAis GPT-4O, co czyni go najbardziej opłacalnym modelem języka AI na rynku

W bezpośrednich testach porównawczych z konkurencyjnymi modelami języka w czasie rzeczywistym, Nova Sonic osiągnęła imponujące wskaźniki zwycięstwa:

W amerykańsko-angielskiej produkcji głosu męskim głosem osiągnęła wygraną w wysokości 51% w porównaniu z GPT-4O, a nawet 69,7% w stosunku do Gemini
Model również lepiej odcinał w brytyjskim angielskim

Wszechstronne obszary zastosowania i integracji

Nova Sonic został zaprojektowany do szerokiej gamy zastosowań i wykazuje specjalny potencjał w różnych obszarach.

Integracja z krajobrazem produktu Amazon

Amazon już integruje Nova Sonic z ekosystemem produktu:

Części modelu są już używane w Alexa+, ulepszonym cyfrowym asystencie głosowym Amazon,
Model jest dostępny w Amazon Dongonk, platformie programistów Amazon dla korporacyjnych aplikacji ACI
Opiera się na wiedzy Amazon w dużych systemach orkiestracji, które tworzą techniczne rusztowanie Alexa

Inteligentne użycie narzędzia i agencyjne przepływy pracy

Jedną z wybitnych umiejętności Nova Sonic jest inteligentne wykorzystanie zewnętrznych narzędzi i usług:

Model obsługuje narzędzia do aplikacji, w których odpowiedzi na dane firmy muszą być oparte, takie jak plany cenowe, dostępne zapasy i dostępność
Może przekazać zapytania użytkowników do różnych interfejsów API w celu uzyskania dostępu do informacji z Internetu w czasie rzeczywistym, analizy zastrzeżonych źródeł danych lub działania w aplikacjach zewnętrznych
Nova Sonic może rozwiązywać złożone zapytania klientów i wykonywać zadania w imieniu klienta, takie jak „Znajdź rezerwację” lub „Znajdź alternatywne loty”
Obsługuje także generowanie rozszerzone w celu zakotwiczenia w danych korporacyjnych

Zastosowania krzyżowe

Nova Sonic nadaje się do różnych zastosowań w różnych branżach:

Automatyzacja połączeń klientów w ośrodkach kontaktowych
Agenci AI w takich obszarach, jak podróże, edukacja, opieka zdrowotna i rozrywka
Interaktywna edukacja i uczenie się języka
Systemy pomocy marketingowej i pomocy osobistej

Kilka firm już zaczęło korzystać z Nova Sonic:

ASAPP używa modelu dla swojego agenta generatywnego, w pełni kondycyjnego generatywnego głośnika AI dla centrów kontaktowych
Edukacja First (EF) wykorzystuje Nova Sonic, aby umożliwić uczniom ćwiczenie nowego słownictwa i poprawy ich wymowy w dynamicznym środowisku uczenia się
Statystyki wykonują system do analizy danych sportowych

Dostępność i specyfikacje techniczne

Nova Sonic jest teraz dostępna za pośrednictwem Amazon Fedrock w regionie AWS w USA East (N. Virginia). Model obecnie obsługuje:

Trzy ekspresyjne głosy, w tym zarówno męskie, jak i żeńskie głosy, które są dostępne w języku angielskim
Generowanie języka w różnych angielskich akcentach, w tym amerykańskim i brytyjskim
Wsparcie dla dalszych języków i akcentów powinny wkrótce nastąpić

Model został opracowany z myślą o odpowiedzialnym rozwój AI i zintegrował środki ochronne, takie jak moderacja treści i znak wodny. Amazon zapewnia również karty usług AI, które opisują aplikacje, ograniczenia i odpowiedzialne praktyki AI modelu.

Znaczący krok w rozwoju asystentów głosowych

Dzięki Nova Sonic Amazon poczynił znaczne postępy w rozwoju modeli językowych AI. Standaryzowana architektura zrozumienia i generowania języka przezwycięża ograniczenia konwencjonalnych fragmentarycznych podejść i umożliwia bardziej naturalne, kontekstowe systemy dialogowe. Znakomita dokładność rozpoznawania mowy, niskie opóźnienia i efektywność kosztowa Nova Sonic jako poważny konkurent do ustanowienia modeli takich jak GPT-4O i Gemini.

Integracja z ekosystemem produktu Amazon, szczególnie w Alexa+, wskazuje, że firma realizuje duże ambicje w dziedzinie sztucznej inteligencji ogólnej (AGI). Dzięki możliwości korzystania z narzędzi zewnętrznych i interakcji z danymi firmy, Nova Sonic oferuje obiecujące możliwości dla firm w różnych branżach, od obsługi klienta po edukację po opiekę zdrowotną.

Chociaż angielski jest obecnie głównie obsługiwany, ogłoszone rozszerzenie innych języków i akcentów powinno zwiększyć globalne zastosowanie modelu w przyszłości. Nova Sonic oznacza ważny krok w ewolucji cyfrowych asystentów, którzy w przeszłości byli postrzegani jako sztywne i nienaturalne, w kierunku znacznie bardziej naturalnych i ludzkich systemów dialogowych.

Nadaje się do: