发表于:2025年4月14日 /更新,发表于:2025年4月14日 - 作者: Konrad Wolfenstein
Amazon在进行-AI语言模型之前介绍Nova Sonic
由于亚马逊的Nova Sonic,更自然的对话
借助Nova Sonic,Amazon提出了一个高级的AI语言模型,该模型可以通过其对理解和语言的标准化来改善用户体验。结果是与数字助手更加流畅,更自然的对话。 Nova Sonic的特征是精确的语音识别,快速响应时间和上下文相关的适应性,因此直接与GPT-4O和Gemini等模型竞争。
适合:
统一体系结构处理的新语言处理
传统的语音控制的AI系统通常基于几种单独模型的复杂组合:一种用于语音识别,将口语转换为文本,另一个大型语言模型(LLM),用于理解和生成答案,最后是文本到语音模型,将文本转换为语言。这种零散的方法不仅会导致更高的复杂性,而且会失去重要的声学细微差别,例如语气,韵律和言语,这对于自然对话至关重要。
Nova Sonic通过根本不同的方法解决了这些问题:模型处理语言本地,并将语言理解和产生结合在统一的体系结构中。这种革命性的标准化使系统能够适应对声学环境和口语输入的生成语言响应,从而导致更自然的对话。
实时互动的双向流API
Nova Sonic的核心优势之一是实施一种新型的双向流API,该API集成在Amazon Dampf中。此API启用:
- 同时在两个方向上流式传输内容
- 从用户到模型的连续音频传输
- 平行语言处理和发电
- 实时模型答案没有等待时间的完整陈述
该体系结构遵循基于事件的协议,在该协议中,客户端和模型交换结构化的JSON事件控制了会话生命周期,音频流,文学词和工具交互。这种实时能力对于用户与AI模型之间的低延迟和交互式通信至关重要。
理解自然的对话
Nova Sonic的特征是他对人类交流的细微差别的深刻理解。该模型可以:
- 了解演讲者的自然休息和犹豫
- 等待“正确的时间”以获取答案
- 处理中断
- 尽管有噪音,请考虑谈话
这些技能使人们可以更自然的对话流动,例如,模型吸收了用户的音调,节奏和风格上的细微差别,并可以将它们集成到自己的答案中。
与比赛相比出色的表现
亚马逊将Nova Sonic定位为语言模型类别的领导者,并与OpenAIS GPT-4O和Google的Gemini Flash 2.0等竞争产品相比,各种基准结果强调了这一主张。
卓越的语音识别准确性
Nova Sonic展示了不同语言和声学条件的令人印象深刻的语音识别能力:
- 在多语言的Librispech数据集中的测试中,该模型平均达到了单词错误率(WHO),平均仅为英语,法语,意大利语,德语和西班牙语
- 这比Openai的GPT-4O转录模型低36.4%
- 在来自增强多方互动(AMI)会议基准的英语录音中,由与几位演讲者进行的真实,嘈杂的对话组成,Nova Sonic的亲戚比OpenAis GPT-4O转录模型低24.2%
- 在实际会议情况下的测试中,英语音频的折扣比GPT-4O转录要好47%
低潜伏期和高成本效率
Nova Sonic的另一个决定性优势是低潜伏期和出色的价格表现:
- 从用户结束对话到系统生成第一语言响应的时间,客户所感知的延迟平均为1.09秒
- 相比之下,OpenAIS GPT-4O(实时)的延迟为1.18秒,Google的Gemini Flash 2.0在1.41秒
- 根据亚马逊的说法,Nova Sonic比OpenAIS GPT-4O便宜80%,这使其成为市场上最具成本效益的AI语言模型
在与竞争的实时语言模型的直接比较测试中,Nova Sonic取得了令人印象深刻的胜利率:
- 与GPT-4O相比,以男性的声音以男性声音输出,其获胜率为51%,甚至69.7%
- 该模型在英式英语中也更好
应用和集成的多功能领域
Nova Sonic专为广泛的应用而设计,并在各个领域都具有特殊的潜力。
集成到亚马逊产品景观中
亚马逊已经将Nova Sonic集成到其产品生态系统中:
- 该模型的一部分已经在Amazon改进的数字语音助手Alexa+中使用,
- 该模型可在Amazon Dongonk(Amazon Dongonk)(用于企业ACI应用程序的开发人员平台)中获得
- 它以亚马逊在大型编排系统中的专业知识为基础,该系统构成了Alexa的技术脚手架
智能工具使用和代理工作流程
Nova Sonic的杰出技能之一是智能使用外部工具和服务:
- 该模型支持用于应用程序必须基于答案的应用程序的工具,例如定价计划,可用库存和可用性
- 它可以将用户查询转发到不同的API,以便实时访问Internet,分析专有数据源或在外部应用程序中起作用
- Nova Sonic可以解决复杂的客户查询并代表客户执行任务,例如“找到预订”或“查找替代航班”
- 它还支持检索增强发电(RAG)以锚定在公司数据中
交叉工业用途
Nova Sonic适用于各个行业的各种应用:
- 在联系中心中自动化客户呼叫的自动化
- 旅行,教育,医疗保健和娱乐等领域的AI代理商
- 互动教育和语言学习
- 出站营销和个人援助系统
几家公司已经开始使用Nova Sonic:
- ASAPP使用该模型作为其生成代理,是一个完全可感知的生成AI扬声器,用于接触中心
- 教育第一(EF)使用Nova Sonic使学生能够在动态学习环境中练习新的词汇并改善其发音
- Stats执行使用该系统进行运动数据分析
可用性和技术规格
Nova Sonic现在可通过AWS East(N. Virginia)的AWS地区的Amazon Fedrock获得。该模型当前支持:
- 三种富有表现力的声音,包括男性和女性的声音,以英语使用
- 包括美国和英国在内的各种英语口音的语言发电
- 支持进一步的语言和口音应很快遵循
该模型是在考虑到负责的AI开发的情况下开发的,并综合了诸如内容适度和水印等保护措施。亚马逊还提供AWS AI服务卡,以描述该模型的应用,限制和负责任的AI实践。
语音助手发展的重要一步
借助Nova Sonic,亚马逊在AI语言模型的开发中取得了重大进展。语言理解和生成的标准化体系结构克服了对常规零散方法的限制,并实现了更自然的,情境敏感的对话系统。出色的语音识别准确性,低潜伏期和成本效率位置Nova Sonic是建立GPT-4O和Gemini等模型的认真竞争者。
加入亚马逊产品生态系统,尤其是在Alexa+中,表明该公司在人工通用情报(AGI)领域中追求巨大的野心。 Nova Sonic具有使用外部工具并与公司数据进行交互的能力,为从客户服务到教育再到医疗保健的各个行业的公司提供了有希望的机会。
尽管目前主要得到英语,但已宣布的对其他语言和口音的扩展应在将来提高该模型的全球适用性。 Nova Sonic标志着数字助手的发展迈出了重要的一步,这些助手过去通常被认为是僵化和不自然的,朝着更自然和类似人类的对话系统迈进。
适合:
您的AI转换,AI集成和AI平台行业专家
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。