当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 魔搭社区推出开源数字人实时对话技术

魔搭社区ModelScope发布了一项基于开源技术的数字人实时对话demo。该技术允许用户无需预训练,即可使用自定义数字人形象进行实时语音对话,对话首包延迟可低至3秒。项目采用模块化设计,支持快速更换和优化,适用于直播、新闻播报和聊天助手等多种场景。

640.webp

技术选型方面,该项目整合了语音识别、大语言模型、文本转语音和说话人生成等模块。其中,语音识别模块采用FunASR,大语言模型选用通义千问Qwen,文本转语音模块则选择了GPT-SoVITS,而说话人生成模块则采用了MuseTalk。这些技术的结合,使得数字人能够实现语音输入和视频输出的流畅对话。

此外,项目还利用Gradio 5实现流式视频输出,简化了部署流程,加快了交互式数字人应用的构建。本地部署支持环境配置和模块技术选型的更换,允许开发者加入自定义的数字人音色和形象视频。未来,项目团队计划进一步优化链路,提升整体性能,并探索端到端语音聊天的可能性。

项目链接:
https://www.modelscope.cn/studios/AI-ModelScope/video_chat

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海