阶跃星辰推出Step R-mini推理模型，展现文理兼修能力

小哪吒

      2025年1月16日，上海阶跃星辰智能科技有限公司宣布其自研的推理模型Step Reasoner mini（简称“Step R-mini”）正式上线。用户可通过登录跃问网页端https://yuewen.cn，在左上角选择“Step R-mini”进行体验。
      Step R-mini是Step系列模型家族中的首个推理模型，具备主动规划、尝试和反思的能力。它通过慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。该模型不仅擅长解决逻辑推理、代码和数学等复杂问题，还能兼顾文学创作等通用领域。
      在AIME和Math等数学基准测试中，Step R-mini的成绩超过了o1-preview，与OpenAI的o1-mini比肩。在LiveCodeBench代码任务上，也展现出优于o1-preview的效果。值得注意的是，大多数推理模型难以同时兼顾文理科能力，但Step R-mini通过大规模的强化学习训练和On-Policy强化学习算法，实现了文理兼修。
      Step R-mini的开发遵循了Scaling Law原则，包括Scaling Reinforcement Learning、Scaling Data Quality、Scaling Test-Time Compute和Scaling Model Size。这些原则确保了模型在训练和测试阶段的高质量和高性能。
      在实际应用场景中，Step R-mini展现了出色的表现。在解答数学题时，它能够构建合理的推理链，实现复杂数学问题的规划和逐步求解。在逻辑推理任务中，它会自主尝试多种解题思路，并确保枚举出所有有效的解决方案。在代码题方面，Step R-mini能够正确解答LeetCode技术平台上难度评级为“Hard”的算法题，并处理复杂的开发需求。
      除了语言推理模型，阶跃星辰还在打造视觉推理模型，将推理能力融入更多交互形态的大模型中。该视觉推理模型的正式版本预计将在今年发布，届时将进一步拓展Step系列模型的应用范围。