魔搭社区ModelScope发布了一项基于开源技术的数字人实时对话demo。该技术允许用户无需预训练,即可使用自定义数字人形象进行实时语音对话,对话首包延迟可低至3秒。项目采用模块化设计,支持快速更换和优化,适用于直播、新闻播报和聊天助手等多种场景。
技术选型方面,该项目整合了语音识别、大语言模型、文本转语音和说话人生成等模块。其中,语音识别模块采用FunASR,大语言模型选用通义千问Qwen,文本转语音模块则选择了GPT-SoVITS,而说话人生成模块则采用了MuseTalk。这些技术的结合,使得数字人能够实现语音输入和视频输出的流畅对话。 此外,项目还利用Gradio 5实现流式视频输出,简化了部署流程,加快了交互式数字人应用的构建。本地部署支持环境配置和模块技术选型的更换,允许开发者加入自定义的数字人音色和形象视频。未来,项目团队计划进一步优化链路,提升整体性能,并探索端到端语音聊天的可能性。 项目链接: https://www.modelscope.cn/studios/AI-ModelScope/video_chat
|