Amazon Nova Sonic：より自然な対話システムのための新しいAI言語モデル

公開：2025年4月14日 /更新：2025年4月14日 - 著者： Konrad Wolfenstein

Amazonは、即興AI言語モデルの前にNova Sonicを紹介します

AmazonのNovaSonicのおかげで、より自然な会話

Nova Sonicを使用して、Amazonは、理解と言語生成の標準化を通じてユーザーエクスペリエンスを改善できる高度なAI言語モデルを提示します。その結果、より流動的で、デジタルアシスタントとのより自然な会話が得られます。 Nova Sonicは、正確な音声認識、高速応答時間、コンテキスト関連の適応性によって特徴付けられるため、GPT-4OやGeminiなどのモデルと直接競合します。

に適し：

Samsungの革新的なミニロボット：家庭ロボット「Ballie AI」は、AmazonのAstro RobotとEnabot Ebo Xの競争をしています

統一されたアーキテクチャによる新しい言語処理

通常、従来の音声制御されたAIシステムは、通常、いくつかの別々のモデルの複雑な組み合わせに基づいています。1つは、音声認識をテキストに変換するための音声認識、回答を理解して生成するための別の大手言語モデル（LLM）、そして最後にテキストからスピーチモデルを言語に変換するためのテキストからスピーチモデルです。この断片化されたアプローチは、より複雑さを高めるだけでなく、自然な会話に不可欠なトーン、韻律、音声などの重要な音響ニュアンスを失います。

Nova Sonicは、根本的に異なるアプローチでこれらの問題を解決します。モデルは言語ネイティブを処理し、均一なアーキテクチャで言語の理解と生成を組み合わせます。この革新的な標準化により、システムは生成された言語応答を音響コンテキストと音声入力に適応させることができます。これにより、非常に自然な対話につながります。

リアルタイムインタラクションのための双方向ストリーミングAPI

Nova Sonicのコア強みの1つは、Amazon Dampfに統合された新しいタイプの双方向ストリーミングAPIの実装です。このAPIを有効にします：

両方向のコンテンツの同時ストリーミング
ユーザーからモデルへの継続的なオーディオ伝送
並列言語処理と生成
リアルタイムモデルは、完全なステートメントを待つことなく回答します

アーキテクチャは、セッションのライフサイクル、オーディオストリーミング、テクマントワード、ツールインタラクションを制御するクライアントとモデル交換のJSONイベントを交換するイベントベースのプロトコルに従います。このリアルタイム能力は、ユーザーとAIモデル間の遅延とインタラクティブな通信に不可欠です。

会話の自然なニュアンスの理解

ノヴァ・ソニックは、人間のコミュニケーションのニュアンスについての彼の深い理解によって特に特徴です。モデルは：

スピーカーの自然な休憩とためらうことを理解してください
答えを「適切なタイミング」を待ちます
エレガントに中断を処理します
騒音にもかかわらず会話を検討してください

これらのスキルにより、モデルがユーザーのトーン、ペース、スタイルのニュアンスを吸収し、独自の答えに統合できるという、はるかに自然な会話の流れが可能になります。

競争に比べて優れたパフォーマンス

AmazonはNova Sonicを言語モデルカテゴリのリーダーとして位置付け、Openais GPT-4oやGoogleのGemini Flash 2.0などの競合製品と比較して、さまざまなベンチマーク結果によってこの主張を強調しています。

優れた音声認識の精度

Nova Sonicは、さまざまな言語と音響条件で印象的な音声認識能力を示しています。

多言語のLibrispeechデータセットのテストでは、モデルは英語、フランス語、イタリア語、ドイツ語、スペイン語よりも平均で4.2％の単語エラー率（WHO）を達成しました。
これは、OpenAIのGPT-4O転写モデルのものよりも36.4％低い
拡張されたマルチパーティーインタラクション（AMI）会議ベンチマークからの英語のオーディオ録音では、いくつかのスピーカーとの実際の騒々しい会話で構成されているNova Sonicは、Openais GPT-4o転写モデルと比較して24.2％低い親relativeを持っています。
実際の会議の状況でのテストでは、GPT-4o転写よりも英語のオーディオで47％の方が良いです

低レイテンシーと高コスト効率

Nova Sonicのもう1つの決定的な利点は、低レイテンシーと優れた価格パフォーマンスです。

顧客が知覚するレイテンシーは、ユーザーが会話を終了する時から、システムが第一言語応答を生成するまでの平均1.09秒です。
それに比べて、Openais GPT-4O（リアルタイム）の遅延は1.18秒、GoogleのGemini Flash 2.0は1.41秒です
Amazonによると、Nova SonicはOpenais GPT-4Oよりも約80％安いため、市場で最も費用対効果の高いAI言語モデルになります

競合するリアルタイム言語モデルとの直接比較テストでは、Nova Sonicは印象的な勝利率を達成しました。

男性の声でのアメリカ英語の音声出力では、GPT-4oと比較して51％の勝利率を達成し、ジェミニに対してさえ69.7％を達成しました。
このモデルは、英国の英語でもより良く遮断されています

用途と統合の汎用性のある領域

Nova Sonicは幅広いアプリケーション向けに設計されており、さまざまな分野で特別な可能性を示しています。

Amazon製品の状況への統合

AmazonはすでにNova Sonicを製品エコシステムに統合しています。

モデルの一部は、Amazonの改良されたデジタル音声アシスタントであるAlexa+ですでに使用されています。
このモデルは、企業ACIアプリケーション向けのAmazonの開発者プラットフォームであるAmazon Dongonkで入手できます
Alexaの技術的な足場を形成する大規模なオーケストレーションシステムにおけるAmazonの専門知識に基づいています

インテリジェントツールの使用とエージェントワークフロー

Nova Sonicの優れたスキルの1つは、外部ツールとサービスのインテリジェントな使用です。

このモデルは、価格設定計画、利用可能な在庫、可用性など、企業データへの回答が基づいている必要があるアプリケーションのツールをサポートしています
インターネットからリアルタイムで情報にアクセスしたり、独自のデータソースを分析したり、外部アプリケーションで行動したりするために、さまざまなAPIにユーザーの問い合わせを転送できます
Nova Sonicは、「予約を見つける」や「代替フライトを見つける」など、複雑な顧客の問い合わせを解決し、顧客に代わってタスクを実行できます。
また、企業データに固定するための検索拡張生成（RAG）もサポートしています

Cross -Industrialの使用

Nova Sonicは、さまざまな業界のさまざまなアプリケーションに適しています。

コンタクトセンターでの顧客通話の自動化
旅行、教育、ヘルスケア、エンターテイメントなどの分野のAIエージェント
インタラクティブな教育と言語学習
アウトバウンドマーケティングおよび個人支援システム

いくつかの企業はすでにNova Sonicの使用を開始しています：

ASAPPは、その生成エージェントにモデルを使用します。
Education First（EF）はNova Sonicを使用して、学生が新しい語彙を実践し、動的学習環境で発音を改善できるようにします
STATは、スポーツデータ分析にシステムを使用します

可用性と技術仕様

Nova Sonicは現在、米国東部（N.バージニア州）のAWS地域にあるAmazon Fedrockから入手できます。モデルは現在サポートしています：

英語で利用できる男性と女性の両方の声を含む3つの表現力豊かな声
アメリカやイギリスを含むさまざまな英語のアクセントの言語生成
さらなる言語とアクセントのサポートはまもなく続くはずです

このモデルは、責任あるAI開発を念頭に置いて開発され、コンテンツの節度や透かしなどの保護対策を統合しています。 Amazonは、モデルのアプリケーション、制限、責任あるAIプラクティスを説明するAWS AIサービスカードも提供しています。

音声アシスタントの開発における重要なステップ

Nova Sonicにより、AmazonはAI言語モデルの開発に大きな進歩を遂げました。言語の理解と生成のための標準化されたアーキテクチャは、従来の断片化されたアプローチの制限を克服し、より自然でコンテキストに感受性のダイアログシステムを可能にします。優れた音声認識の精度、低レイテンシ、コスト効率は、GPT-4OやGeminiなどのモデルを確立するための真剣な競合他社としてNova Sonicに位置しています。

特にAlexa+におけるAmazonの製品エコシステムへの統合は、同社が人工的な一般情報（AGI）の分野で大きな野望を追求していることを示しています。 Nova Sonicは、外部ツールを使用して企業データと対話する機能により、顧客サービスから教育まで、さまざまな業界の企業に有望な機会を提供します。

英語は現在主にサポートされていますが、発表された他の言語やアクセントへの拡張は、将来のモデルのグローバルな適用性を高めるはずです。 Nova Sonicは、過去に硬直して不自然であると認識されてきたデジタルアシスタントの進化における重要なステップを示しています。

に適し：