当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 亚马逊推出新型AI语音模型Nova Sonic

628e40c3776b52e8d01af3a47ac6a48d.webp


         2025年4月8日,亚马逊正式发布了一款名为Nova Sonic的新型生成式AI语音模型。该模型能够原生处理语音并生成自然流畅的语音输出。根据亚马逊的声明,Nova Sonic在速度、语音识别和对话质量等关键指标上的表现与OpenAI和谷歌的前沿语音模型相当。
         Nova Sonic通过亚马逊的企业级AI开发平台Bedrock提供服务,采用双向流式API接口。亚马逊在新闻稿中称其为“市场上最具成本效益的AI语音模型”,其价格比OpenAI的GPT-4o模型低约80%。此外,Nova Sonic的部分组件已经应用于亚马逊升级版语音助手Alexa+,据亚马逊高级副总裁兼人工通用智能(AGI)部门负责人罗希特·普拉萨德(Rohit Prasad)透露,该模型在技术架构上延续了亚马逊在“大型协同系统”方面的经验,尤其擅长将用户请求路由至不同的API接口。这使得Nova Sonic能够根据需要实时从互联网获取信息、解析专有数据源或在外部应用程序中采取行动。
         在对话交互方面,Nova Sonic能够根据说话者的停顿和打断选择合适的时机进行回应,并为用户语音生成文本记录,方便开发者进行进一步的应用开发。普拉萨德表示,Nova Sonic在语音识别准确性方面优于其他同类模型,即使在用户发音模糊、说错话或处于嘈杂环境中,该模型也能较好地理解用户意图。在多语言和方言的语音识别基准测试Multilingual LibriSpeech中,Nova Sonic的平均词错误率(WER)仅为4.2%,这意味着在英语、法语、意大利语、德语和西班牙语中,每100个词中平均只有4个词与人工转录结果不同。
         在涉及多方互动的语音交互基准测试Augmented Multi Party Interaction中,Nova Sonic的词错误率比OpenAI的GPT-4o-transcribe模型低46.7%。此外,Nova Sonic的响应速度行业领先,平均感知延迟仅为1.09秒,比OpenAI的Realtime API(响应时间为1.18秒)更快。
         普拉萨德指出,Nova Sonic是亚马逊构建人工通用智能(AGI)战略的一部分,其目标是开发能够完成人类在计算机上所有任务的AI系统。未来,亚马逊计划推出更多能够理解图像、视频和语音等多种模态的AI模型,并将其内部AI模型更多地开放给开发者使用。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海