Amazon Nova Sonic :보다 자연스러운 대화 시스템을위한 새로운 AI 언어 모델

출판 : 2025 년 4 월 14 일 / 업데이트 : 2025 년 4 월 14 일 - 저자 : Konrad Wolfenstein

Amazon은 Nova Sonic을 전공 -프로그램 AI 언어 모델을 소개합니다

Amazon의 Nova Sonic 덕분에 더 자연스러운 대화

Nova Sonic을 통해 Amazon은 이해 및 언어 생성의 표준화를 통해 향상된 사용자 경험을 가능하게하는 고급 AI 언어 모델을 제시합니다. 그 결과 디지털 어시스턴트와 더 유동적이고 자연스러운 대화가 나옵니다. Nova Sonic은 정확한 음성 인식, 빠른 응답 시간 및 상황 관련 적응성을 특징으로하며 GPT-4O 및 Gemini와 같은 모델과 직접 경쟁합니다.

적합:

삼성의 혁신적인 미니 로봇 : 가정용 로봇“발리 AI”

통합 아키텍처에 의한 새로운 언어 처리

기존의 음성 제어 AI 시스템은 일반적으로 여러 개별 모델의 복잡한 조합을 기반으로합니다. 하나는 음성 언어를 텍스트로 변환하기위한 음성 인식, 답변을 이해하고 생성하기위한 또 다른 큰 언어 모델 (LLM) 및 텍스트를 다시 언어로 변환하는 텍스트 음성 모델을 기반으로합니다. 이 단편화 된 접근 방식은 복잡성을 높일뿐만 아니라 자연적인 대화에 필수적인 톤, 번영 및 연설과 같은 중요한 음향 뉘앙스를 잃게됩니다.

Nova Sonic은 근본적으로 다른 접근법으로 이러한 문제를 해결합니다. 모델은 언어를 기본적으로 프로세스하고 균일 한 아키텍처에서 언어 이해와 세대를 결합합니다. 이 혁신적인 표준화를 통해 시스템은 음향 컨텍스트와 구어 입력에 생성 된 언어 응답을 조정하여 훨씬 더 자연스러운 대화로 이어집니다.

실시간 상호 작용을위한 양방향 스트리밍 API

Nova Sonic의 핵심 강점 중 하나는 Amazon DAMPF에 통합 된 새로운 유형의 양방향 스트리밍 API를 구현하는 것입니다. 이 API는 다음을 가능하게합니다.

양방향 컨텐츠의 동시 스트리밍
사용자에서 모델로 연속 오디오 전송
병렬 언어 처리 및 생성
실시간 모델은 완전한 진술을 기다리는 시간없이 답변합니다

이 아키텍처는 세션 수명주기, 오디오 스트리밍, 텍스트 단어 및 도구 상호 작용을 제어하는 클라이언트 및 모델 교환 JSON 이벤트가 이벤트 기반 프로토콜을 따릅니다. 이 실시간 능력은 사용자와 AI 모델 간의 낮은 대기 시간 및 대화식 통신에 중요합니다.

대화의 자연적인 뉘앙스에 대한 이해

Nova Sonic은 특히 인간의 의사 소통의 뉘앙스에 대한 깊은 이해가 특징입니다. 모델은 다음과 같습니다.

화자의 자연스러운 휴식과 망설임을 이해하십시오
답변을 받으려면“적절한 시간”을 기다리십시오
프로세스가 우아하게 중단됩니다
소음에도 불구하고 대화를 고려하십시오

이러한 기술은 예를 들어 모델이 사용자의 톤, 페이스 및 스타일 뉘앙스를 흡수하여 자체 답변으로 통합 할 수있는 훨씬 더 자연스러운 대화의 흐름을 가능하게합니다.

경쟁에 비해 뛰어난 성능

Amazon은 Nova Sonic을 언어 모델 카테고리의 리더로 위치시키고 Openais GPT-4O 및 Google의 Gemini Flash 2.0과 같은 경쟁 제품과 비교하여 다양한 벤치 마크 결과 로이 주장을 강조합니다.

우수한 음성 인식 정확도

Nova Sonic은 다양한 언어와 음향 조건에서 인상적인 음성 인식 능력을 보여줍니다.

다국어 Librispeech 데이터 세트의 테스트 에서이 모델은 영어, 프랑스어, 이탈리아, 독일어 및 스페인어보다 평균 4.2%의 단어 오류율 (WHO)을 달성했습니다.
이것은 OpenAi의 GPT-4O 전사 모델보다 36.4% 낮습니다.
Nova Sonic은 여러 스피커와의 실제적이고 시끄러운 대화로 구성된 Ami (Augmented Multi Party Interaction) 회의 벤치 마크의 영어 오디오 녹음에서 Openais GPT-4O 전사 모델과 비교하여 24.2% 낮은 친척을 보유하고 있습니다.
실제 회의 상황에서 테스트에서 GPT-4O 전사보다 영어 오디오에서는 47% 더 낫습니다.

낮은 대기 시간과 높은 비용 효율성

Nova Sonic의 또 다른 결정적인 장점은 낮은 대기 시간과 우수한 가격 성능입니다.

고객이 인식 한 대기 시간은 시스템이 모국어 응답을 생성 할 때까지 사용자가 대화를 종료하는 시점부터 평균 1.09 초입니다.
이에 비해 OpenAIS GPT-4O (실시간)의 대기 시간은 1.18 초이고 Google의 Gemini Flash 2.0은 1.41 초입니다.
Amazon에 따르면 Nova Sonic은 Openais GPT-4O보다 약 80% 저렴하여 시장에서 가장 비용 효율적인 AI 언어 모델입니다.

경쟁하는 실시간 언어 모델과 직접 비교 테스트에서 Nova Sonic은 인상적인 승리율을 달성했습니다.

남성 음성이있는 미국-영어 음성 출력에서 GPT-4O에 비해 51%, gemini에 비해 69.7%의 승리율을 달성했습니다.
이 모델은 또한 영국 영어로 더 잘 차단되었습니다

다재다능한 응용 프로그램 및 통합 영역

Nova Sonic은 광범위한 응용 프로그램을 위해 설계되었으며 다양한 영역에서 특별한 잠재력을 보여줍니다.

아마존 제품 환경에 통합

Amazon은 이미 Nova Sonic을 제품 생태계에 통합합니다.

이 모델의 일부는 이미 Amazon의 개선 된 Digital Voice Assistant 인 Alexa+에서 이미 사용되었습니다.
이 모델은 기업 ACI 애플리케이션을위한 Amazon의 개발자 플랫폼 인 Amazon Dongonk에서 제공됩니다.
Alexa의 기술 스캐 폴딩을 형성하는 대형 오케스트레이션 시스템에 대한 Amazon의 전문 지식을 기반으로합니다.

지능형 공구 사용 및 에이전트 워크 플로

Nova Sonic의 뛰어난 기술 중 하나는 외부 도구 및 서비스를 지능적으로 사용하는 것입니다.

이 모델은 가격 계획, 사용 가능한 재고 및 가용성과 같은 회사 데이터에 대한 답변을 기반으로 해야하는 응용 프로그램을위한 도구를 지원합니다.
인터넷의 정보에 실시간으로 액세스하거나 독점 데이터 소스를 분석하거나 외부 애플리케이션에서 행동하기 위해 다른 API에 대한 사용자 문의를 전달할 수 있습니다.
Nova Sonic은 복잡한 고객 문의를 해결하고 "예약 찾기"또는 "대체 항공편 찾기"와 같은 고객을 대신하여 작업을 수행 할 수 있습니다.
또한 기업 데이터의 고정을위한 검색 증강 생성 (RAG)도 지원합니다.

교차 산업 용도

Nova Sonic은 다양한 산업에서 다양한 응용 분야에 적합합니다.

컨택 센터에서 고객 통화 자동화
여행, 교육, 건강 관리 및 엔터테인먼트와 같은 분야의 AI 요원
대화식 교육 및 언어 학습
아웃 바운드 마케팅 및 개인 지원 시스템

몇몇 회사는 이미 Nova Sonic을 사용하기 시작했습니다.

Asapp은 컨택 센터를위한 완전히 대화 가능한 생성 AI 스피커 인 생성 에이전트의 모델을 사용합니다.
Education First (EF)는 Nova Sonic을 사용하여 학생들이 새로운 어휘를 연습하고 역동적 인 학습 환경에서 발음을 향상시킬 수 있도록합니다.
STATS 수행은 스포츠 데이터 분석을 위해 시스템을 사용합니다

가용성 및 기술 사양

Nova Sonic은 이제 US East (N. Virginia)의 AWS 지역의 Amazon Fedrock을 통해 제공됩니다. 모델은 현재 다음을 지원합니다.

남성과 여성 둘 다를 포함한 세 가지 표현 목소리는 영어로 제공되는 음성
미국과 영국인을 포함한 다양한 영어 악센트의 언어 생성
추가 언어 및 악센트에 대한 지원은 곧 따라야합니다

이 모델은 책임있는 AI 개발을 염두에두고 개발되었으며 컨텐츠 중재 및 워터 마크와 같은 보호 조치를 통합했습니다. Amazon은 또한 모델의 응용 프로그램, 제한 및 책임있는 AI 관행을 설명하는 AWS AI 서비스 카드를 제공합니다.

음성 조수 개발의 중요한 단계

Nova Sonic과 함께 Amazon은 AI 언어 모델 개발에서 상당한 진전을 보였습니다. 언어 이해와 세대를위한 표준화 된 아키텍처는 기존의 조각난 접근 방식에 대한 제한을 극복하고보다 자연스럽고 상황에 민감한 대화 시스템을 가능하게합니다. 뛰어난 음성 인식 정확도, 낮은 대기 시간 및 비용 효율성 위치 Nova Sonic은 GPT-4O 및 Gemini와 같은 모델을 확립하기위한 심각한 경쟁자로 자리 매김합니다.

Amazon의 제품 생태계, 특히 Alexa+에 통합 된 것은 회사가 인공 일반 정보 분야 (AGI)에서 큰 야망을 추구하고 있음을 나타냅니다. Nova Sonic은 외부 도구를 사용하고 회사 데이터와 상호 작용할 수있는 기능을 통해 고객 서비스에서 교육에 이르기까지 다양한 산업의 회사에 유망한 기회를 제공합니다.

영어가 주로 지원되는 반면, 발표 된 다른 언어 및 악센트로의 확장은 향후 모델의 글로벌 적용 가능성을 높여야합니다. 노바 소닉 (Nova Sonic)은 과거에 자연스럽고 인간적인 대화 시스템을 향해 엄격하고 부 자연스러운 것으로 종종 인식 된 디지털 어시스턴트의 진화에서 중요한 단계를 나타냅니다.

적합: