亚马逊推出新型AI语音模型Nova Sonic

小哪吒

      2025年4月8日，亚马逊正式发布了一款名为Nova Sonic的新型生成式AI语音模型。该模型能够原生处理语音并生成自然流畅的语音输出。根据亚马逊的声明，Nova Sonic在速度、语音识别和对话质量等关键指标上的表现与OpenAI和谷歌的前沿语音模型相当。
      Nova Sonic通过亚马逊的企业级AI开发平台Bedrock提供服务，采用双向流式API接口。亚马逊在新闻稿中称其为“市场上最具成本效益的AI语音模型”，其价格比OpenAI的GPT-4o模型低约80%。此外，Nova Sonic的部分组件已经应用于亚马逊升级版语音助手Alexa+，据亚马逊高级副总裁兼人工通用智能（AGI）部门负责人罗希特·普拉萨德（Rohit Prasad）透露，该模型在技术架构上延续了亚马逊在“大型协同系统”方面的经验，尤其擅长将用户请求路由至不同的API接口。这使得Nova Sonic能够根据需要实时从互联网获取信息、解析专有数据源或在外部应用程序中采取行动。
      在对话交互方面，Nova Sonic能够根据说话者的停顿和打断选择合适的时机进行回应，并为用户语音生成文本记录，方便开发者进行进一步的应用开发。普拉萨德表示，Nova Sonic在语音识别准确性方面优于其他同类模型，即使在用户发音模糊、说错话或处于嘈杂环境中，该模型也能较好地理解用户意图。在多语言和方言的语音识别基准测试Multilingual LibriSpeech中，Nova Sonic的平均词错误率（WER）仅为4.2%，这意味着在英语、法语、意大利语、德语和西班牙语中，每100个词中平均只有4个词与人工转录结果不同。
      在涉及多方互动的语音交互基准测试Augmented Multi Party Interaction中，Nova Sonic的词错误率比OpenAI的GPT-4o-transcribe模型低46.7%。此外，Nova Sonic的响应速度行业领先，平均感知延迟仅为1.09秒，比OpenAI的Realtime API（响应时间为1.18秒）更快。
      普拉萨德指出，Nova Sonic是亚马逊构建人工通用智能（AGI）战略的一部分，其目标是开发能够完成人类在计算机上所有任务的AI系统。未来，亚马逊计划推出更多能够理解图像、视频和语音等多种模态的AI模型，并将其内部AI模型更多地开放给开发者使用。