Избор језика 📢


Амазон Нова Соник: Нови вештачки језички модел за природније системе дијалога

Објављено: 14. априла 2025. / Ажурирано: 14. априла 2025. – Аутор: Konrad Wolfenstein

Амазон Нова Соник: Нови вештачки језички модел за природније системе дијалога

Амазон Нова Соник: Нови вештачки језички модел за природније системе дијалога

Амазон представља Нова Соник - напредни вештачки језички модел

Природнији разговори захваљујући Амазоновом Нова Сонику

Са Нова Соником, Амазон представља напредни модел говора заснован на вештачкој интелигенцији који омогућава побољшано корисничко искуство кроз обједињавање разумевања говора и генерисања говора. Резултат су глаткији, природнији разговори са дигиталним асистентима. Нова Соник карактерише прецизно препознавање говора, брзо време одзива и прилагодљивост контексту, чиме се директно такмичи са моделима као што су ГПТ-40 и Џемини.

У вези са овим:

Обрада новог језика кроз обједињену архитектуру

Конвенционални системи вештачке интелигенције засновани на говору обично се ослањају на сложену комбинацију неколико одвојених модела: један за препознавање говора ради претварања говорног језика у текст, други модел великог језика (LLM) за разумевање и генерисање одговора и коначно модел претварања текста у говор ради повратка текста у говор. Овај фрагментирани приступ не само да доводи до веће сложености, већ и губи важне акустичке нијансе као што су интонација, прозодија и стил говора, које су неопходне за природан разговор.

Нова Соник решава ове проблеме кроз фундаментално другачији приступ: Модел обрађује говор изворно и комбинује разумевање и генерисање говора у јединственој архитектури. Ово револуционарно обједињавање омогућава систему да прилагоди генерисани говорни одговор акустичном контексту и говорном уносу, што резултира знатно природнијим дијалогом.

Двосмерни API за стримовање за интеракције у реалном времену

Једна од главних предности компаније Nova Sonic је имплементација новог двосмерног API-ја за стримовање интегрисаног са Amazon Bedrock-ом. Овај API омогућава:

  • Истовремено стримовање садржаја у оба смера
  • Континуирани пренос звука од корисника до модела
  • Паралелна обрада и генерисање језика
  • Одговори модела у реалном времену без времена чекања на комплетне исказе

Архитектура прати протокол заснован на догађајима, где клијент и модел размењују структуриране JSON догађаје који контролишу животни циклус сесије, стримовање звука, текстуалне одговоре и интеракције алата. Ова могућност рада у реалном времену је кључна за ниску латенцију и интерактивну комуникацију између корисника и вештачке интелигенције модела.

Разумевање природних нијанси у разговору

Нова Соник се посебно истиче по дубоком разумевању нијанси људске комуникације. Модел може:

  • Разумевање природних пауза и оклевања говорника
  • Чекање „правог времена“ за добијање одговора
  • Елегантно се носите са прекидима
  • Одржавање разговора упркос буци у позадини

Ове могућности омогућавају много природнији ток разговора, у којем модел, на пример, препознаје тон гласа корисника, темпо и стилске нијансе и може их интегрисати у сопствени одговор.

Одличне перформансе у поређењу са конкуренцијом

Амазон позиционира Нова Соник као лидера у категорији језичких модела и поткрепљује ову тврдњу разним резултатима бенчмарк тестова у поређењу са конкурентским производима као што су ОпенАИ-јев ГПТ-4о и Гуглов Гемини Флеш 2.0.

Супериорна тачност препознавања говора

Нова Соник показује импресивне могућности препознавања говора на различитим језицима и акустичним условима:

  • У тестовима на вишејезичном скупу података LibriSpeech, модел је постигао стопу грешака у речима (WER) од само 4,2% у просеку на енглеском, француском, италијанском, немачком и шпанском језику
  • Ово је 36,4% ниже од WER-а OpenAI-јевог GPT-4o транскрипционог модела
  • У аудио снимцима на енглеском језику са теста за проширену интеракцију више страна (AMI), који се састоји од стварних, бучних разговора са више говорника, Nova Sonic има 24,2% нижи релативни WER у поређењу са OpenAI-јевим GPT-4o транскрипционим моделом
  • У тестовима спроведеним у стварним ситуацијама састанака, постигао је 47% боље резултате од GPT-4o Transcribe-а са звуком на енглеском језику

Мала латенција и висока исплативост

Још једна кључна предност Нова Соника лежи у његовој ниској латенцији и одличном односу цене и перформанси:

  • Латенција коју корисник опажа у просеку износи 1,09 секунди од тренутка када корисник заврши позив до тренутка када систем генерише први гласовни одговор
  • Поређења ради, латенција OpenAI-јевог GPT-4o (Realtime) је 1,18 секунди, а Google-овог Gemini Flash 2.0 је 1,41 секунда
  • Према Амазону, Нова Соник је око 80% јефтинији од ОпенАИ-јевог ГПТ-4о, што га чини најисплативијим моделом АИ језика на тржишту

У тестовима директног поређења са конкурентским моделима говора у реалном времену, Nova Sonic је постигао импресивне стопе победа:

  • У америчко-енглеској верзији са мушким гласом, постигла је стопу победа од 51% против GPT-40 и чак 69,7% против Gemini
  • Модел је такође боље функционисао на британском енглеском језику

Свестране апликације и интеграције

Нова Соник је дизајниран за широк спектар примене и показује посебан потенцијал у различитим областима.

Интеграција у производни пејзаж Амазона

Амазон већ интегрише Нова Соник у свој екосистем производа:

  • Делови модела се већ користе у Alexa+, Амазоновом побољшаном дигиталном гласовном асистенту
  • Модел је доступан у Amazon Bedrock-у, Amazon-овој платформи за развој апликација за вештачку интелигенцију у предузећима
  • Надовезује се на Амазонову стручност у великим системима оркестрације, који чине технички оквир Алексе

Интелигентно коришћење алата и агентски токови рада

Једна од изузетних могућности Нова Соника је интелигентно коришћење екстерних алата и услуга:

  1. Модел подржава алате за апликације где одговори морају бити засновани на подацима компаније, као што су ценовници, расположиви инвентар и доступност заказивања термина
  2. Може да прослеђује корисничке захтеве различитим API-јима како би преузео информације са интернета у реалном времену, анализирао власничке изворе података или комуницирао са спољним апликацијама
  3. Нова Соник може да решава сложене захтеве купаца и обавља задатке у име купаца, као што су „резервација“ или „проналажење алтернативних летова“
  4. Такође подржава Retrieval Augmented Generation (RAG) за усидрење у пословним подацима

Међуиндустријске апликације

Нова Соник је погодан за широк спектар примене у различитим индустријама:

  • Аутоматизација позива корисничкој служби у контакт центрима
  • Агенти вештачке интелигенције у областима као што су путовања, образовање, здравство и забава
  • Интерактивно образовање и учење језика
  • Спољни маркетинг и системи личне асистенције

Неколико компанија је већ почело да користи Нова Соник:

  • ASAPP користи модел за свој GenerativeAgent, потпуно конверзациони генеративни AI гласовни агент за контакт центре
  • Education First (EF) користи Nova Sonic како би омогућио ученицима да вежбају нови вокабулар и побољшају свој изговор у динамичном окружењу за учење
  • Stats Perform користи систем за анализу спортских података

Доступност и техничке спецификације

Нова Соник је сада доступан на Амазон Бедроку у AWS региону Исток САД (Северна Вирџинија). Модел тренутно подржава:

  • Три изражајна гласа, укључујући и мушке и женске гласове, доступна на енглеском језику
  • Производња говора у различитим енглеским акцентима, укључујући амерички и британски
  • Подршка за додатне језике и акценте биће ускоро доступна

Модел је развијен имајући у виду одговоран развој вештачке интелигенције и укључује уграђене мере заштите као што су модерирање садржаја и водени жиг. Амазон такође пружа AWS AI сервисне картице које описују случајеве употребе модела, ограничења и одговорне праксе вештачке интелигенције.

Значајан корак у развоју гласовних асистената

Са Нова Соник-ом, Амазон је постигао значајан напредак у развоју вештачких интелигенцијских модела говора. Његова обједињена архитектура за разумевање и генерисање говора превазилази ограничења традиционалних, фрагментираних приступа, омогућавајући природније, контекстуално осетљиве системе дијалога. Изузетна тачност препознавања говора, ниска латенција и исплативост позиционирају Нова Соник као озбиљног конкурента успостављеним моделима попут ГПТ-40 и Џемини-ја.

Интеграција у екосистем производа компаније Amazon, посебно Alexa+, сугерише да компанија има амбициозне циљеве у области вештачке опште интелигенције (AGI). Са својом способношћу да користи екстерне алате и интерагује са пословним подацима, Nova Sonic нуди обећавајуће могућности за предузећа у различитим индустријама, од корисничке службе и образовања до здравствене заштите.

Иако је тренутно енглески примарни подржани језик, најављено проширење које би укључило додатне језике и акценте требало би додатно да побољша глобалну применљивост модела у будућности. Нова Соник означава важан корак у еволуцији дигиталних асистената, који су у прошлости често доживљавани као крути и неприродни, ка знатно природнијим и људским системима дијалога.

У вези са овим:

 

Ваш стручњак за трансформацију вештачке интелигенције, интеграцију вештачке интелигенције и индустрију платформи за вештачку интелигенцију

☑️ Наш пословни језик је енглески или немачки

☑️ НОВО: Преписка на вашем матерњем језику!

 

Дигитални пионир - Konrad Wolfenstein

Konrad Wolfenstein

Ја и мој тим смо срећни што вам можемо бити на располагању као ваш лични саветник.

Можете ме контактирати попуњавањем контакт форме овде или једноставно позовите на +49 89 89 674 804 ( Минхен) . Моја имејл адреса је: [email protected]

Радујем се нашем заједничком пројекту.

 

 

☑️ Подршка малим и средњим предузећима у стратегији, консултацијама, планирању и имплементацији

☑️ Креирање или преусмеравање стратегије вештачке интелигенције

☑️ Пионирски развој пословања


⭐️ Вештачка интелигенција (ВИ) - Блог о ВИ, жаришна тачка и центар за садржај ⭐️ XPaper