人工智能领域的巨头OpenAI正准备在本周二(2024年9月24日)为其明星产品ChatGPT推出"高级语音模式"(Advanced Voice Mode)。这一消息源自社交媒体平台X上一位用户分享的截图,引发了科技圈的广泛关注。 据悉,这项新功能目前仅向少数用户开放alpha测试。OpenAI表示,参与测试的用户选择基于多项因素,包括但不限于邀请参与度和特定测试标准。
今年春季,OpenAI发布了GPT-4o模型,凭借其跨文本、视觉和音频的"全能"性能赢得了业界赞誉。公司随后展示了一系列令人印象深刻的演示,包括实时翻译、编程助手、AI导师等应用场景。然而,当时备受期待的高级语音模式并未随之推出。
就在OpenAI即将推出这一功能之际,AI领域的竞争也在不断升温。法国非营利AI研究机构Kyutai近期推出了Moshi,一款能够实时与人类对话的多模态AI模型。同时,Hume AI也发布了EVI 2语音对语音AI模型,支持快速流畅的对话,并能理解语气、调整回应。
不甘落后的还有科技巨头们。亚马逊Alexa正与Anthropic合作,提升其对话能力。谷歌则推出了基于Gemini AI模型系列的"通用AI代理"Astra,支持多模态处理。
OpenAI此次推出高级语音模式,无疑将进一步巩固其在AI领域的领先地位。这一功能有望为用户带来更自然、更人性化的人机交互体验,标志着AI技术向着更智能、更直观的方向迈进了一大步。
|