2025年1月16日,上海阶跃星辰智能科技有限公司宣布其自研的推理模型Step Reasoner mini(简称“Step R-mini”)正式上线。用户可通过登录跃问网页端https://yuewen.cn,在左上角选择“Step R-mini”进行体验。
Step R-mini是Step系列模型家族中的首个推理模型,具备主动规划、尝试和反思的能力。它通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。该模型不仅擅长解决逻辑推理、代码和数学等复杂问题,还能兼顾文学创作等通用领域。
在AIME和Math等数学基准测试中,Step R-mini的成绩超过了o1-preview,与OpenAI的o1-mini比肩。在LiveCodeBench代码任务上,也展现出优于o1-preview的效果。值得注意的是,大多数推理模型难以同时兼顾文理科能力,但Step R-mini通过大规模的强化学习训练和On-Policy强化学习算法,实现了文理兼修。
Step R-mini的开发遵循了Scaling Law原则,包括Scaling Reinforcement Learning、Scaling Data Quality、Scaling Test-Time Compute和Scaling Model Size。这些原则确保了模型在训练和测试阶段的高质量和高性能。
在实际应用场景中,Step R-mini展现了出色的表现。在解答数学题时,它能够构建合理的推理链,实现复杂数学问题的规划和逐步求解。在逻辑推理任务中,它会自主尝试多种解题思路,并确保枚举出所有有效的解决方案。在代码题方面,Step R-mini能够正确解答LeetCode技术平台上难度评级为“Hard”的算法题,并处理复杂的开发需求。
除了语言推理模型,阶跃星辰还在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。该视觉推理模型的正式版本预计将在今年发布,届时将进一步拓展Step系列模型的应用范围。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!