Публикувано на: 14 април 2025 г. / Актуализирано на: 14 април 2025 г. – Автор: Konrad Wolfenstein
Amazon представя Nova Sonic - усъвършенстван езиков модел на изкуствен интелект
По-естествени разговори благодарение на Nova Sonic на Amazon
С Nova Sonic, Amazon представя усъвършенстван модел на реч с изкуствен интелект, който позволява подобрено потребителско изживяване чрез обединяване на разбирането на речта и генерирането на реч. Резултатът е по-плавни и по-естествени разговори с дигитални асистенти. Nova Sonic се характеризира с прецизно разпознаване на реч, бързо време за реакция и адаптивност към контекста, като по този начин се конкурира директно с модели като GPT-40 и Gemini.
Свързано с това:
- Иновативен мини-робот от Samsung: Домакинският робот „Ballie AI“ се конкурира с робота Astro на Amazon и Enabot EBO X
Обработка на нови езици чрез унифицирана архитектура
Конвенционалните системи с изкуствен интелект, базирани на реч, обикновено разчитат на сложна комбинация от няколко отделни модела: един за разпознаване на реч, за да преобразува говоримия език в текст, друг модел за голям език (LLM) за разбиране и генериране на отговори и накрая модел за преобразуване на текст в реч, за да преобразува текста обратно в реч. Този фрагментиран подход не само води до по-голяма сложност, но и губи важни акустични нюанси като интонация, прозодия и стил на речта, които са от съществено значение за естествения разговор.
Nova Sonic решава тези проблеми чрез фундаментално различен подход: Моделът обработва речта естествено и комбинира разбирането и генерирането на реч в унифицирана архитектура. Това революционно обединение позволява на системата да адаптира генерирания речев отговор към акустичния контекст и говорения вход, което води до значително по-естествен диалог.
Двупосочен стрийминг API за взаимодействия в реално време
Една от основните силни страни на Nova Sonic е внедряването на нов двупосочен стрийминг API, интегриран с Amazon Bedrock. Този API позволява:
- Едновременно стрийминг на съдържание в двете посоки
- Непрекъснато предаване на звук от потребител към модел
- Паралелна обработка и генериране на език
- Моделиране на отговори в реално време без време за изчакване за пълни изказвания
Архитектурата следва протокол, базиран на събития, при който клиентът и моделът обменят структурирани JSON събития, които контролират жизнения цикъл на сесията, стрийминга на аудио, текстовите отговори и взаимодействията с инструментите. Тази възможност в реално време е от решаващо значение за ниската латентност и интерактивната комуникация между потребителите и модела с изкуствен интелект.
Разбиране на естествените нюанси в разговора
Nova Sonic се отличава особено с дълбокото си разбиране на нюансите на човешката комуникация. Моделът може:
- Разбиране на естествените паузи и колебания на говорещия
- Чакайки „подходящия момент“ за получаване на отговори
- Справяйте се с прекъсванията елегантно
- Поддържане на разговора въпреки фоновия шум
Тези възможности позволяват много по-естествен поток на разговора, при който моделът, например, улавя тона на гласа, темпото и стилистичните нюанси на потребителя и може да ги интегрира в собствения си отговор.
Изключително представяне в сравнение с конкуренцията
Amazon позиционира Nova Sonic като лидер в категорията езикови модели и подчертава това твърдение с различни резултати от бенчмаркове в сравнение с конкурентни продукти като GPT-4o на OpenAI и Gemini Flash 2.0 на Google.
Превъзходна точност на разпознаване на реч
Nova Sonic демонстрира впечатляващи възможности за разпознаване на реч на различни езици и акустични условия:
- В тестове на многоезичния набор от данни LibriSpeech, моделът постигна процент на грешки в думите (WER) от само 4,2% средно на английски, френски, италиански, немски и испански език
- Това е с 36,4% по-ниско от WER на модела GPT-4o Transcribe на OpenAI
- В аудиозаписи на английски език от Augmented Multi Party Interaction (AMI) Meeting Benchmark, който се състои от реални, шумни разговори с множество говорители, Nova Sonic има 24,2% по-нисък относителен WER в сравнение с модела GPT-4o Transcribe на OpenAI
- В тестове, проведени в реални ситуации на срещи, той се представи с 47% по-добре от GPT-4o Transcribe с аудио на английски език
Ниска латентност и висока икономическа ефективност
Друго решаващо предимство на Nova Sonic е ниската латентност и отличното съотношение цена-качество:
- Закъснението, възприемано от клиента, е средно 1,09 секунди от момента, в който потребителят приключи разговора, до момента, в който системата генерира първия гласов отговор
- За сравнение, латентността на GPT-4o (Realtime) на OpenAI е 1,18 секунди, а на Gemini Flash 2.0 на Google е 1,41 секунди
- Според Amazon, Nova Sonic е с около 80% по-евтин от GPT-4o на OpenAI, което го прави най-рентабилният модел на език за изкуствен интелект на пазара
В тестове за директно сравнение с конкурентни модели за реч в реално време, Nova Sonic постигна впечатляващи проценти на победи:
- В американската английска версия с мъжки глас, тя постигна процент на победа от 51% срещу GPT-40 и дори 69,7% срещу Gemini
- Моделът се представи по-добре и на британски английски
Гъвкави приложения и интеграции
Nova Sonic е проектирана за широк спектър от приложения и показва особен потенциал в различни области.
Интеграция в продуктовия пейзаж на Amazon
Amazon вече интегрира Nova Sonic в своята продуктова екосистема:
- Части от модела вече се използват в Alexa+, подобрения дигитален гласов асистент на Amazon
- Моделът е наличен в Amazon Bedrock, платформата за разработчици на Amazon за корпоративни приложения с изкуствен интелект
- Той се основава на експертния опит на Amazon в големи оркестрационни системи, които формират техническата рамка на Alexa
Интелигентно използване на инструменти и агентни работни процеси
Една от изключителните възможности на Nova Sonic е интелигентното използване на външни инструменти и услуги:
- Моделът поддържа инструменти за приложения, където отговорите трябва да се основават на фирмени данни, като например ценови планове, налични запаси и наличност на срещи
- Той може да препраща потребителски заявки към различни API, за да извлича информация от интернет в реално време, да анализира собствени източници на данни или да взаимодейства с външни приложения
- Nova Sonic може да разрешава сложни клиентски заявки и да изпълнява задачи от името на клиенти, като например „правене на резервация“ или „намиране на алтернативни полети“
- Той също така поддържа Retrieval Augmented Generation (RAG) за закотвяне в корпоративни данни
Междуиндустриални приложения
Nova Sonic е подходящ за широк спектър от приложения в различни индустрии:
- Автоматизация на обажданията за обслужване на клиенти в контактните центрове
- Агенти с изкуствен интелект в области като пътувания, образование, здравеопазване и развлечения
- Интерактивно образование и изучаване на езици
- Изходящ маркетинг и системи за лична помощ
Няколко компании вече започнаха да използват Nova Sonic:
- ASAPP използва модела за своя GenerativeAgent, напълно разговорен генеративен гласов агент с изкуствен интелект за контактни центрове
- Education First (EF) използва Nova Sonic, за да даде възможност на учениците да практикуват нов речник и да подобрят произношението си в динамична учебна среда
- Stats Perform използва системата за анализ на спортни данни
Наличност и технически спецификации
Nova Sonic вече е налична в Amazon Bedrock в региона AWS US East (Северна Вирджиния). Моделът в момента поддържа:
- Три изразителни гласа, включително мъжки и женски, налични на английски език
- Производство на реч с различни английски акценти, включително американски и британски
- Поддръжката за допълнителни езици и акценти ще последва скоро
Моделът е разработен с оглед на отговорното разработване на изкуствен интелект и включва вградени предпазни мерки, като например модериране на съдържание и воден знак. Amazon предоставя и AWS AI сервизни карти, които описват случаите на употреба, ограниченията и отговорните практики за изкуствен интелект на модела.
Значителна стъпка в развитието на гласовите асистенти
С Nova Sonic, Amazon постигна значителен напредък в разработването на модели на реч с изкуствен интелект. Нейната унифицирана архитектура за разбиране и генериране на реч преодолява ограниченията на традиционните, фрагментирани подходи, позволявайки по-естествени, контекстно-чувствителни диалогови системи. Изключителната точност на разпознаване на реч, ниската латентност и икономическата ефективност позиционират Nova Sonic като сериозен конкурент на утвърдени модели като GPT-40 и Gemini.
Интеграцията в продуктовата екосистема на Amazon, по-специално Alexa+, предполага, че компанията има амбициозни цели в областта на изкуствения общ интелект (AGI). Със способността си да използва външни инструменти и да взаимодейства с корпоративни данни, Nova Sonic предлага обещаващи възможности за бизнеси в различни индустрии, от обслужване на клиенти и образование до здравеопазване.
Въпреки че в момента английският е основният поддържан език, обявеното разширяване с включване на допълнителни езици и акценти би трябвало допълнително да подобри глобалната приложимост на модела в бъдеще. Nova Sonic бележи важна стъпка в еволюцията на дигиталните асистенти, които в миналото често се възприемаха като твърди и неестествени, към значително по-естествени и човекоподобни диалогови системи.
Свързано с това:
Вашият експерт в индустрията за трансформация, интеграция и платформи с изкуствен интелект
☑️ Нашият бизнес език е английски или немски
☑️ НОВО: Кореспонденция на родния ви език!
Аз и моят екип с удоволствие ще бъдем на ваше разположение като ваш личен съветник.
Можете да се свържете с мен, като попълните формата за контакт тук или просто ми се обадите на +49 89 89 674 804 ( Мюнхен) . Моят имейл адрес е: [email protected]
Очаквам с нетърпение нашия съвместен проект.













