⭐️ Изкуствен интелект (ИИ) - Блог за ИИ, гореща точка и център за съдържание ⭐️ XPaper

Available in 27 languages 📢

Amazon Nova Sonic: Нов езиков модел на изкуствен интелект за по-естествени диалогови системи

Публикувано на: 14 април 2025 г. / Актуализирано на: 14 април 2025 г. – Автор: Konrad Wolfenstein

Amazon представя Nova Sonic - усъвършенстван езиков модел на изкуствен интелект

По-естествени разговори благодарение на Nova Sonic на Amazon

С Nova Sonic, Amazon представя усъвършенстван модел на реч с изкуствен интелект, който позволява подобрено потребителско изживяване чрез обединяване на разбирането на речта и генерирането на реч. Резултатът е по-плавни и по-естествени разговори с дигитални асистенти. Nova Sonic се характеризира с прецизно разпознаване на реч, бързо време за реакция и адаптивност към контекста, като по този начин се конкурира директно с модели като GPT-40 и Gemini.

Свързано с това:

Иновативен мини-робот от Samsung: Домакинският робот „Ballie AI“ се конкурира с робота Astro на Amazon и Enabot EBO X

Обработка на нови езици чрез унифицирана архитектура

Конвенционалните системи с изкуствен интелект, базирани на реч, обикновено разчитат на сложна комбинация от няколко отделни модела: един за разпознаване на реч, за да преобразува говоримия език в текст, друг модел за голям език (LLM) за разбиране и генериране на отговори и накрая модел за преобразуване на текст в реч, за да преобразува текста обратно в реч. Този фрагментиран подход не само води до по-голяма сложност, но и губи важни акустични нюанси като интонация, прозодия и стил на речта, които са от съществено значение за естествения разговор.

Nova Sonic решава тези проблеми чрез фундаментално различен подход: Моделът обработва речта естествено и комбинира разбирането и генерирането на реч в унифицирана архитектура. Това революционно обединение позволява на системата да адаптира генерирания речев отговор към акустичния контекст и говорения вход, което води до значително по-естествен диалог.

Двупосочен стрийминг API за взаимодействия в реално време

Една от основните силни страни на Nova Sonic е внедряването на нов двупосочен стрийминг API, интегриран с Amazon Bedrock. Този API позволява:

Едновременно стрийминг на съдържание в двете посоки
Непрекъснато предаване на звук от потребител към модел
Паралелна обработка и генериране на език
Моделиране на отговори в реално време без време за изчакване за пълни изказвания

Архитектурата следва протокол, базиран на събития, при който клиентът и моделът обменят структурирани JSON събития, които контролират жизнения цикъл на сесията, стрийминга на аудио, текстовите отговори и взаимодействията с инструментите. Тази възможност в реално време е от решаващо значение за ниската латентност и интерактивната комуникация между потребителите и модела с изкуствен интелект.

Разбиране на естествените нюанси в разговора

Nova Sonic се отличава особено с дълбокото си разбиране на нюансите на човешката комуникация. Моделът може:

Разбиране на естествените паузи и колебания на говорещия
Чакайки „подходящия момент“ за получаване на отговори
Справяйте се с прекъсванията елегантно
Поддържане на разговора въпреки фоновия шум

Тези възможности позволяват много по-естествен поток на разговора, при който моделът, например, улавя тона на гласа, темпото и стилистичните нюанси на потребителя и може да ги интегрира в собствения си отговор.

Изключително представяне в сравнение с конкуренцията

Amazon позиционира Nova Sonic като лидер в категорията езикови модели и подчертава това твърдение с различни резултати от бенчмаркове в сравнение с конкурентни продукти като GPT-4o на OpenAI и Gemini Flash 2.0 на Google.

Превъзходна точност на разпознаване на реч

Nova Sonic демонстрира впечатляващи възможности за разпознаване на реч на различни езици и акустични условия:

В тестове на многоезичния набор от данни LibriSpeech, моделът постигна процент на грешки в думите (WER) от само 4,2% средно на английски, френски, италиански, немски и испански език
Това е с 36,4% по-ниско от WER на модела GPT-4o Transcribe на OpenAI
В аудиозаписи на английски език от Augmented Multi Party Interaction (AMI) Meeting Benchmark, който се състои от реални, шумни разговори с множество говорители, Nova Sonic има 24,2% по-нисък относителен WER в сравнение с модела GPT-4o Transcribe на OpenAI
В тестове, проведени в реални ситуации на срещи, той се представи с 47% по-добре от GPT-4o Transcribe с аудио на английски език

Ниска латентност и висока икономическа ефективност

Друго решаващо предимство на Nova Sonic е ниската латентност и отличното съотношение цена-качество:

Закъснението, възприемано от клиента, е средно 1,09 секунди от момента, в който потребителят приключи разговора, до момента, в който системата генерира първия гласов отговор
За сравнение, латентността на GPT-4o (Realtime) на OpenAI е 1,18 секунди, а на Gemini Flash 2.0 на Google е 1,41 секунди
Според Amazon, Nova Sonic е с около 80% по-евтин от GPT-4o на OpenAI, което го прави най-рентабилният модел на език за изкуствен интелект на пазара

В тестове за директно сравнение с конкурентни модели за реч в реално време, Nova Sonic постигна впечатляващи проценти на победи:

В американската английска версия с мъжки глас, тя постигна процент на победа от 51% срещу GPT-40 и дори 69,7% срещу Gemini
Моделът се представи по-добре и на британски английски

Гъвкави приложения и интеграции

Nova Sonic е проектирана за широк спектър от приложения и показва особен потенциал в различни области.

Интеграция в продуктовия пейзаж на Amazon

Amazon вече интегрира Nova Sonic в своята продуктова екосистема:

Части от модела вече се използват в Alexa+, подобрения дигитален гласов асистент на Amazon
Моделът е наличен в Amazon Bedrock, платформата за разработчици на Amazon за корпоративни приложения с изкуствен интелект
Той се основава на експертния опит на Amazon в големи оркестрационни системи, които формират техническата рамка на Alexa

Интелигентно използване на инструменти и агентни работни процеси

Една от изключителните възможности на Nova Sonic е интелигентното използване на външни инструменти и услуги:

Моделът поддържа инструменти за приложения, където отговорите трябва да се основават на фирмени данни, като например ценови планове, налични запаси и наличност на срещи
Той може да препраща потребителски заявки към различни API, за да извлича информация от интернет в реално време, да анализира собствени източници на данни или да взаимодейства с външни приложения
Nova Sonic може да разрешава сложни клиентски заявки и да изпълнява задачи от името на клиенти, като например „правене на резервация“ или „намиране на алтернативни полети“
Той също така поддържа Retrieval Augmented Generation (RAG) за закотвяне в корпоративни данни

Междуиндустриални приложения

Nova Sonic е подходящ за широк спектър от приложения в различни индустрии:

Автоматизация на обажданията за обслужване на клиенти в контактните центрове
Агенти с изкуствен интелект в области като пътувания, образование, здравеопазване и развлечения
Интерактивно образование и изучаване на езици
Изходящ маркетинг и системи за лична помощ

Няколко компании вече започнаха да използват Nova Sonic:

ASAPP използва модела за своя GenerativeAgent, напълно разговорен генеративен гласов агент с изкуствен интелект за контактни центрове
Education First (EF) използва Nova Sonic, за да даде възможност на учениците да практикуват нов речник и да подобрят произношението си в динамична учебна среда
Stats Perform използва системата за анализ на спортни данни

Наличност и технически спецификации

Nova Sonic вече е налична в Amazon Bedrock в региона AWS US East (Северна Вирджиния). Моделът в момента поддържа:

Три изразителни гласа, включително мъжки и женски, налични на английски език
Производство на реч с различни английски акценти, включително американски и британски
Поддръжката за допълнителни езици и акценти ще последва скоро

Моделът е разработен с оглед на отговорното разработване на изкуствен интелект и включва вградени предпазни мерки, като например модериране на съдържание и воден знак. Amazon предоставя и AWS AI сервизни карти, които описват случаите на употреба, ограниченията и отговорните практики за изкуствен интелект на модела.

Значителна стъпка в развитието на гласовите асистенти

С Nova Sonic, Amazon постигна значителен напредък в разработването на модели на реч с изкуствен интелект. Нейната унифицирана архитектура за разбиране и генериране на реч преодолява ограниченията на традиционните, фрагментирани подходи, позволявайки по-естествени, контекстно-чувствителни диалогови системи. Изключителната точност на разпознаване на реч, ниската латентност и икономическата ефективност позиционират Nova Sonic като сериозен конкурент на утвърдени модели като GPT-40 и Gemini.

Интеграцията в продуктовата екосистема на Amazon, по-специално Alexa+, предполага, че компанията има амбициозни цели в областта на изкуствения общ интелект (AGI). Със способността си да използва външни инструменти и да взаимодейства с корпоративни данни, Nova Sonic предлага обещаващи възможности за бизнеси в различни индустрии, от обслужване на клиенти и образование до здравеопазване.

Въпреки че в момента английският е основният поддържан език, обявеното разширяване с включване на допълнителни езици и акценти би трябвало допълнително да подобри глобалната приложимост на модела в бъдеще. Nova Sonic бележи важна стъпка в еволюцията на дигиталните асистенти, които в миналото често се възприемаха като твърди и неестествени, към значително по-естествени и човекоподобни диалогови системи.

Свързано с това:

Вашият експерт в индустрията за трансформация, интеграция и платформи с изкуствен интелект

☑️ Нашият бизнес език е английски или немски

☑️ НОВО: Кореспонденция на родния ви език!

Konrad Wolfenstein

Аз и моят екип с удоволствие ще бъдем на ваше разположение като ваш личен съветник.

Можете да се свържете с мен, като попълните формата за контакт тук или просто ми се обадите на +49 89 89 674 804 ( Мюнхен) . Моят имейл адрес е: [email protected]

Очаквам с нетърпение нашия съвместен проект.