法国AI实验室kyutai推出开源多模态大模型Moshi Chat，效果堪比GPT-4o

小哪吒

法国初创公司Kyutai推出的Moshi Chat是一款新型的原生AI语音模型，承诺提供与GPT-4o相似的体验，能够理解语气并允许用户打断对话。

与GPT-4o不同，Moshi Chat的模型更小，支持本地安装和离线运行，这可能使其成为智能家电的理想选择，如果其响应能力得到提升的话。

在与Moshi Chat的对话测试中，尽管每次对话限制为五分钟，但对话往往因重复同一词汇而失去连贯性。这可能是由于上下文窗口大小和计算资源的限制，但这些问题预计会随着时间得到解决。

尽管Moshi Chat目前还不足以对OpenAI构成直接威胁，但它的出现，以及Sora、Luma Labs、Runway等公司的挑战，显示了AI领域的竞争正在加剧。

Moshi Chat的起源与功能

Moshi Chat由Kyutai研究实验室的8人团队开发，目标是创建一个开放且不断发展的平台。作为首个公开可用的原生生成语音AI，该公司声称这项技术首次实现了与AI的流畅、自然和富有表现力的交流。

Moshi Chat的核心功能与OpenAI的GPT-4o相似，但模型更小，且目前已可使用，而GPT-4o的高级语音功能预计要到秋季才会广泛推出。

Moshi Chat的潜在应用

Kyutai建议Moshi Chat可用于角色扮演场景或作为训练时的教练。公司计划与社区合作，开放Moshi Chat，以便他人可以进一步微调AI。

Moshi Chat基于一个7B参数的多模态模型Helium，经过文本和音频编解码器训练。它支持在Nvidia GPU、Apple的Metal或CPU上运行。

Moshi Chat的未来

Kyutai希望通过社区支持来增强Moshi的知识库和事实性，尽管作为一个轻量级模型，这些方面存在限制。公司计划进一步完善模型并扩大规模，以实现更复杂和持久的对话。

在实际使用和观看演示中，Moshi Chat在对话开始时反应迅速，但随着对话的延长，其连贯性逐渐下降。Moshi Chat的知识库尚显不足，对错误反应有时显得慌乱。

虽然Moshi Chat尚未成为GPT-4o的直接竞争对手，但它提供了一个开放的、本地运行的模型，这为开源AI开发迈出了重要一步。