Опубліковано: 14 квітня 2025 р. / Оновлення від: 14 квітня 2025 р. - Автор: Конрад Вольфенштейн
Amazon представляє Nova Sonic перед -прогресивною мовою AI мовою
Більше природних розмов завдяки Новій Сонік Amazon
За допомогою Nova Sonic Amazon представляє розширену мову AI мову, яка дозволяє покращити досвід користувачів завдяки стандартизації розуміння та генерації мови. Результатом є більш рідкі, більш природні розмови з цифровими помічниками. Nova Sonic характеризується точним розпізнаванням мови, швидкими часом відповідей та пристосованою контекстом і, таким чином, конкурує безпосередньо з такими моделями, як GPT-4O та Близнюки.
Підходить для цього:
- Інноваційний міні -робот від Samsung: побутовий робот "Ballie AI" робить Astro Astro Robot та Enabot EBO X
Нова обробка мови за допомогою єдиної архітектури
Звичайні голосові керовані системи AI, як правило, засновані на складному поєднанні декількох окремих моделей: одна для розпізнавання мови для перетворення розмовної мови в текст, інша велика мовна модель (LLM) для розуміння та генерування відповідей та, нарешті, модель тексту-мовлення для перетворення тексту назад на мову. Цей роздроблений підхід не тільки призводить до вищої складності, але й втрачає важливі акустичні нюанси, такі як тон, просодія та мова, які є важливими для природної розмови.
Nova Sonic вирішує ці проблеми з принципово іншим підходом: модель обробляє мову рідною і поєднує в собі розуміння мови та генерацію в єдиній архітектурі. Ця революційна стандартизація дозволяє системі адаптувати генеровану мову реакцію до акустичного контексту та розмовного введення, що призводить до значно більш природного діалогу.
Двонаправлений потоковий API для взаємодії в режимі реального часу
Однією з основних сильних сторін Нової Соніка є реалізація нового типу двонаправленого потокового API, який інтегрується в Amazon DOMPF. Цей API дозволяє:
- Одночасне потокове вміст в обох напрямках
- Безперервна передача аудіо від користувача до моделі
- Паралельна обробка мови та покоління
- Відповідає на модель в режимі реального часу без очікувань на повні заяви
Архітектура дотримується протоколу на основі подій, в якому структуровані події JSON Клієнт та модель, які керують життєвим циклом сеансу, потоковим потоком аудіо, текстовими словами та взаємодіями інструментів. Ця здатність до реального часу має вирішальне значення для низької затримки та інтерактивного спілкування між користувачами та моделлю AI.
Розуміння природних нюансів розмови
Нова Соніка особливо характеризується його глибоким розумінням нюансів людського спілкування. Модель може:
- Зрозумійте природні розриви та вагання оратора
- Зачекайте "правильного часу" для відповідей
- Переривання процесу елегантно
- Розгляньте розмову, незважаючи на шум
Ці навички дозволяють набагато більш природний потік розмови, в якій модель, наприклад, поглинає тон, темп та стилістичні нюанси користувача і може інтегрувати їх у власну відповідь.
Видатні показники порівняно з конкуренцією
Amazon позиціонує Nova Sonic як лідер у категорії мовної моделі та підкреслює цю претензію за різними показниками орієнтирів порівняно з конкуруючими продуктами, такими як OpenAis GPT-4O та Gemini Flash 2.0 Google.
Точність розпізнавання мови
Nova Sonic демонструє вражаючі здібності до розпізнавання мови на різних мовах та акустичних умовах:
- У тестах у багатомовному наборі даних Librispeech модель досягла рівня помилок слова (ВООЗ) лише 4,2% в середньому над англійською, французькою, італійською, німецькою та іспанською мовою
- Це на 36,4% нижче, ніж у моделі транскрипції GPT-4O від OpenAI
- В англійських аудіозаписах з розширеної багаторічної взаємодії (AMI) на зустрічах, що складається з реальних, галасливих розмов з кількома ораторами, Нова Сонік має на 24,2% нижчий родич, який порівняно з моделлю Transcripe OpenAis GPT-4O
- У тестах у реальних ситуаціях зустрічей це на 47% краще в англомовному аудіо, ніж GPT-4O Transcribe
Низька затримка та висока ефективність витрат
Ще однією рішучою перевагою Nova Sonic є низька затримка та відмінна ціна:
- Затримка, сприйнята замовником
- Для порівняння, затримка OpenAis GPT-4O (в режимі реального часу) становить 1,18 секунди, а Gemini Flash 2.0 Google на 1,41 секунду
- За даними Amazon, Nova Sonic приблизно на 80% дешевше, ніж OpenAis GPT-4O, що робить його найбільш економічною мовою AI на ринку
У прямих тестах порівняння з конкуруючими мовними моделями в реальному часі Nova Sonic досяг вражаючих показників перемоги:
- У американсько-англійському голосовому виході з чоловічим голосом він досяг виграшного рівня 51% порівняно з GPT-4o і навіть 69,7% проти Близнюків
- Модель також краще відрізана на британській англійській мові
Універсальні області застосування та інтеграції
Nova Sonic була розроблена для широкого спектру застосувань і демонструє особливий потенціал у різних областях.
Інтеграція в ландшафт продукту Amazon
Amazon вже інтегрує Nova Sonic в свою екосистему продукту:
- Частини моделі вже використовуються в Alexa+, вдосконаленому цифровому голосовому помічнику, Amazon,
- Модель доступна в Amazon Dongonk, платформа розробників Amazon для корпоративних додатків ACI
- Він ґрунтується на досвіді Amazon у великих системах оркестрації, які утворюють технічні риштування Алекса
Інтелектуальне використання інструментів та агентські робочі процеси
Однією з видатних навичок Нової Соніка є розумне використання зовнішніх інструментів та послуг:
- Модель підтримує інструменти для додатків, в яких повинні базуватися відповіді на дані компанії, такі як плани цін, наявна інвентар та доступність
- Він може пересилати запити користувачів у різних API, щоб отримати доступ до інформації з Інтернету в режимі реального часу, проаналізувати власні джерела даних або діяти у зовнішніх додатках
- Nova Sonic може вирішити складні запити клієнтів та виконувати завдання від імені замовника, наприклад, "Знайти бронювання" або "Знайти альтернативні рейси"
- Він також підтримує пошук розширеного покоління (RAG) для кріплення в корпоративних даних
Хрестоноснізовані використання
Nova Sonic підходить для різних застосувань у різних галузях:
- Автоматизація дзвінків клієнтів у контактних центрах
- AI агенти в таких сферах, як подорожі, освіта, охорона здоров'я та розваги
- Інтерактивна освіта та вивчення мови
- Систем виїзної маркетингу та особистої допомоги
Кілька компаній вже почали використовувати Nova Sonic:
- ASAPP використовує модель для свого генеративного агента, повністю навпаки генеративного динаміка AI для контактних центрів
- Освіта спочатку (EF) використовує Nova Sonic, щоб дати можливість студентам практикувати новий словниковий запас та вдосконалювати свою вимову в динамічному навчальному середовищі
- Статистика Використовує Система для аналізу спортивних даних
Наявність та технічні характеристики
Nova Sonic тепер доступна через Amazon FedRock в регіоні AWS на сході США (Н. Вірджинія). Наразі модель підтримує:
- Три виразні голоси, включаючи голоси, що займаються чоловіками, так і жінками, які доступні англійською мовою
- Генерування мови в різних англійських акцентах, включаючи американські та британські
- Підтримка подальших мов та акцентів повинна незабаром дотримуватися
Модель була розроблена з урахуванням відповідального розвитку ШІ та має інтегровані захисні заходи, такі як помірність вмісту та водяний знак. Amazon також надає сервісні картки AWS AI, які описують програми, обмеження та відповідальні практики AI моделі.
Значний крок у розвитку голосового помічника
За допомогою Nova Sonic Amazon досяг значного прогресу в розробці мовних моделей AI. Стандартизована архітектура для розуміння мови та генерації долає обмеження звичайних фрагментованих підходів і дає можливість більш природними контекстними -чутливими діалоговими системами. Видатна точність розпізнавання мови, позиція з низькою затримкою та економічною ефективністю Нова Соніка як серйозного конкурента для створення таких моделей, як GPT-4O та Близнюки.
Інтеграція в екосистему продукту Amazon, особливо в Alexa+, вказує на те, що компанія проводить великі амбіції у галузі штучного загального інтелекту (AGI). Завдяки можливість використовувати зовнішні інструменти та взаємодіяти з даними компанії, Nova Sonic пропонує перспективні можливості для компаній у різних галузях, від обслуговування клієнтів до освіти до охорони здоров'я.
Незважаючи на те, що англійська мова в основному підтримується, оголошено розширення інших мов та акцентів повинно підвищити глобальну застосовність моделі в майбутньому. Nova Sonic позначає важливий крок в еволюції цифрових помічників, які часто сприймали як жорсткі та неприродні в минулому, до значно більш природних та людських діалогових систем.
Підходить для цього:
Ваша трансформація AI, інтеграція AI та експерт з питань індустрії платформ AI
☑ Наша ділова мова - англійська чи німецька
☑ Нове: листування на вашій національній мові!
Я радий бути доступним вам та моїй команді як особистого консультанта.
Ви можете зв’язатися зі мною, заповнивши тут контактну форму або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) . Моя електронна адреса: Вольфенштейн ∂ xpert.digital
Я з нетерпінням чекаю нашого спільного проекту.