法国初创公司Kyutai推出的Moshi Chat是一款新型的原生AI语音模型,承诺提供与GPT-4o相似的体验,能够理解语气并允许用户打断对话。 与GPT-4o不同,Moshi Chat的模型更小,支持本地安装和离线运行,这可能使其成为智能家电的理想选择,如果其响应能力得到提升的话。 在与Moshi Chat的对话测试中,尽管每次对话限制为五分钟,但对话往往因重复同一词汇而失去连贯性。这可能是由于上下文窗口大小和计算资源的限制,但这些问题预计会随着时间得到解决。 尽管Moshi Chat目前还不足以对OpenAI构成直接威胁,但它的出现,以及Sora、Luma Labs、Runway等公司的挑战,显示了AI领域的竞争正在加剧。
Moshi Chat的起源与功能 Moshi Chat由Kyutai研究实验室的8人团队开发,目标是创建一个开放且不断发展的平台。作为首个公开可用的原生生成语音AI,该公司声称这项技术首次实现了与AI的流畅、自然和富有表现力的交流。 Moshi Chat的核心功能与OpenAI的GPT-4o相似,但模型更小,且目前已可使用,而GPT-4o的高级语音功能预计要到秋季才会广泛推出。 Moshi Chat的潜在应用 Kyutai建议Moshi Chat可用于角色扮演场景或作为训练时的教练。公司计划与社区合作,开放Moshi Chat,以便他人可以进一步微调AI。 Moshi Chat基于一个7B参数的多模态模型Helium,经过文本和音频编解码器训练。它支持在Nvidia GPU、Apple的Metal或CPU上运行。 Moshi Chat的未来 Kyutai希望通过社区支持来增强Moshi的知识库和事实性,尽管作为一个轻量级模型,这些方面存在限制。公司计划进一步完善模型并扩大规模,以实现更复杂和持久的对话。 在实际使用和观看演示中,Moshi Chat在对话开始时反应迅速,但随着对话的延长,其连贯性逐渐下降。Moshi Chat的知识库尚显不足,对错误反应有时显得慌乱。 虽然Moshi Chat尚未成为GPT-4o的直接竞争对手,但它提供了一个开放的、本地运行的模型,这为开源AI开发迈出了重要一步。
|