当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 法国AI实验室kyutai推出开源多模态大模型Moshi Chat,效果堪比GPT-4o

gNEHcwk2kFRBHjJAmRoo4C-1200-80.png.webp

法国初创公司Kyutai推出的Moshi Chat是一款新型的原生AI语音模型,承诺提供与GPT-4o相似的体验,能够理解语气并允许用户打断对话。
与GPT-4o不同,Moshi Chat的模型更小,支持本地安装和离线运行,这可能使其成为智能家电的理想选择,如果其响应能力得到提升的话。
在与Moshi Chat的对话测试中,尽管每次对话限制为五分钟,但对话往往因重复同一词汇而失去连贯性。这可能是由于上下文窗口大小和计算资源的限制,但这些问题预计会随着时间得到解决。
尽管Moshi Chat目前还不足以对OpenAI构成直接威胁,但它的出现,以及Sora、Luma Labs、Runway等公司的挑战,显示了AI领域的竞争正在加剧。

Moshi Chat的起源与功能
Moshi Chat由Kyutai研究实验室的8人团队开发,目标是创建一个开放且不断发展的平台。作为首个公开可用的原生生成语音AI,该公司声称这项技术首次实现了与AI的流畅、自然和富有表现力的交流。
Moshi Chat的核心功能与OpenAI的GPT-4o相似,但模型更小,且目前已可使用,而GPT-4o的高级语音功能预计要到秋季才会广泛推出。
Moshi Chat的潜在应用
Kyutai建议Moshi Chat可用于角色扮演场景或作为训练时的教练。公司计划与社区合作,开放Moshi Chat,以便他人可以进一步微调AI。
Moshi Chat基于一个7B参数的多模态模型Helium,经过文本和音频编解码器训练。它支持在Nvidia GPU、Apple的Metal或CPU上运行。
Moshi Chat的未来
Kyutai希望通过社区支持来增强Moshi的知识库和事实性,尽管作为一个轻量级模型,这些方面存在限制。公司计划进一步完善模型并扩大规模,以实现更复杂和持久的对话。
在实际使用和观看演示中,Moshi Chat在对话开始时反应迅速,但随着对话的延长,其连贯性逐渐下降。Moshi Chat的知识库尚显不足,对错误反应有时显得慌乱。
虽然Moshi Chat尚未成为GPT-4o的直接竞争对手,但它提供了一个开放的、本地运行的模型,这为开源AI开发迈出了重要一步。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海