阶跃星辰发布全新多模态推理模型——Step-R1-V-Mini

小哪吒

2025年4月8日，北京——阶跃星辰团队今日宣布其全新多模态推理模型 Step-R1-V-Mini 正式上线。该模型支持图文输入与文字输出，具备高精度图像感知能力及复杂推理能力，同时展现出良好的指令遵循性和通用性。
Step-R1-V-Mini 通过两项技术创新提升推理表现。其一为多模态联合强化学习，采用 PPO 强化学习策略，在图像空间引入可验证奖励机制，解决因果推理错误及链路复杂问题，相比传统方法更具泛化性和鲁棒性。其二为多模态合成数据的规模化应用，通过环境反馈设计数据链路，同步提升文本与视觉推理能力，有效避免训练过程中的性能失衡问题。

在公开榜单表现中，Step-R1-V-Mini 在 MathVision 视觉推理榜单中位列国内第一，展现了在视觉推理、数学逻辑及代码生成等领域的优异性能。

实际应用案例显示，该模型能够精准完成复杂任务。例如，输入温布利球场实拍图时，模型可结合场地特征、队徽标识等元素准确推理出比赛地点及可能的对战双方；在美食图片识别中，模型可详细解析食材用量及烹饪步骤；在物体数量计算任务中，模型通过空间感知与逻辑推理得出准确结果。
Step-R1-V-Mini 已在阶跃 AI 网页端及开放平台提供服务，用户可通过以下链接体验：https://yuewen.cn/chats/new 或访问开放平台获取 API 文档：https://platform.stepfun.com/docs/llm/reasoning。团队表示将持续优化推理模型，推动多模态技术的进一步发展。