魔搭社区推出开源数字人实时对话技术

小哪吒

魔搭社区ModelScope发布了一项基于开源技术的数字人实时对话demo。该技术允许用户无需预训练，即可使用自定义数字人形象进行实时语音对话，对话首包延迟可低至3秒。项目采用模块化设计，支持快速更换和优化，适用于直播、新闻播报和聊天助手等多种场景。

技术选型方面，该项目整合了语音识别、大语言模型、文本转语音和说话人生成等模块。其中，语音识别模块采用FunASR，大语言模型选用通义千问Qwen，文本转语音模块则选择了GPT-SoVITS，而说话人生成模块则采用了MuseTalk。这些技术的结合，使得数字人能够实现语音输入和视频输出的流畅对话。

此外，项目还利用Gradio 5实现流式视频输出，简化了部署流程，加快了交互式数字人应用的构建。本地部署支持环境配置和模块技术选型的更换，允许开发者加入自定义的数字人音色和形象视频。未来，项目团队计划进一步优化链路，提升整体性能，并探索端到端语音聊天的可能性。

项目链接：

https://www.modelscope.cn/studios/AI-ModelScope/video_chat