上海人工智能实验室发布开源多模态交互大模型——书生·浦语灵笔2.5-OL

小哪吒

上海人工智能实验室近日宣布，其研发的多模态实时交互大模型——书生·浦语灵笔2.5-OL（InternLM-XComposer2.5-OmniLive）已正式开源。该模型融合视觉与听觉，实现对外部世界的实时观察与理解，并能通过语音与人类进行自然对话。

书生·浦语灵笔2.5-OL基于书生·浦语2.5模型，采用多模块通专融合架构，通过多模态实时感知和协同记忆编码，达成实时交互能力。模型自开源以来，经过多次迭代，已具备图文理解、混合创作、超高分辨率图像分析等多项能力，累计下载量超200万次。

   该模型的实测效果显示，其支持高精度实时视觉感知和语音对话，并创新性地引入多模态长期记忆功能，能够准确回忆观察内容。例如，模型能在演示中帮助用户找回遗忘物品，并回忆桌上的其他物品。这一功能使得AI助手不仅能与人类自然对话，还能实时感知环境变化，提供实际帮助。
   书生·浦语灵笔2.5-OL的开源包括模型参数、系统集成推理及前后端应用部署方案，支持免费商用。模型的整体架构和核心模块设计如下：感知模块负责音频、视频输入的实时感知；记忆模块进行视觉特征的记忆压缩和检索；思考模块则判断用户指令并结合记忆进行多模态理解和推理。
   系统的前端使用JavaScript开发，负责捕捉视频和音频流输入；SRS服务器负责流媒体的接收和传输；后端服务器则处理音频和视频流，并通过WebSocket与前端建立连接。书生·浦语灵笔2.5-OL的应用部署方案已开源，支持使用LMDeploy部署4-bit实时交互应用，为具身机器人、可穿戴智能硬件、移动设备等领域提供广阔应用前景。