上海人工智能实验室近日宣布,其研发的多模态实时交互大模型——书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)已正式开源。该模型融合视觉与听觉,实现对外部世界的实时观察与理解,并能通过语音与人类进行自然对话。
书生·浦语灵笔2.5-OL基于书生·浦语2.5模型,采用多模块通专融合架构,通过多模态实时感知和协同记忆编码,达成实时交互能力。模型自开源以来,经过多次迭代,已具备图文理解、混合创作、超高分辨率图像分析等多项能力,累计下载量超200万次。
该模型的实测效果显示,其支持高精度实时视觉感知和语音对话,并创新性地引入多模态长期记忆功能,能够准确回忆观察内容。例如,模型能在演示中帮助用户找回遗忘物品,并回忆桌上的其他物品。这一功能使得AI助手不仅能与人类自然对话,还能实时感知环境变化,提供实际帮助。
书生·浦语灵笔2.5-OL的开源包括模型参数、系统集成推理及前后端应用部署方案,支持免费商用。模型的整体架构和核心模块设计如下:感知模块负责音频、视频输入的实时感知;记忆模块进行视觉特征的记忆压缩和检索;思考模块则判断用户指令并结合记忆进行多模态理解和推理。
系统的前端使用JavaScript开发,负责捕捉视频和音频流输入;SRS服务器负责流媒体的接收和传输;后端服务器则处理音频和视频流,并通过WebSocket与前端建立连接。书生·浦语灵笔2.5-OL的应用部署方案已开源,支持使用LMDeploy部署4-bit实时交互应用,为具身机器人、可穿戴智能硬件、移动设备等领域提供广阔应用前景。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!