当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 阿里通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM

         2025年1月16日,通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包括72B和7B两个版本。这一举措旨在提升大型语言模型(LLMs)在数学推理过程中的可靠性和可信度,自动识别推理过程中的错误,如计算或逻辑错误,这些错误可能导致不正确的结论,即使最终答案正确,也可能削弱模型推理过程的可信度。

啊啊大.webp


         Qwen2.5-Math-PRM模型通过创新融合蒙特卡洛估计方法与模型评判,提供更可靠的推理过程反馈。7B版本的Qwen2.5-Math-PRM在识别推理错误步骤的能力上,已超越GPT-4o。同时,通义千问还开源了首个步骤级评估标准ProcessBench,为大模型推理过程错误评估提供了新的标准参考。
啊发发 发发发.webp


         ProcessBench由3400个测试案例组成,主要集中在竞赛和奥林匹克级别的数学问题上。每个测试案例包含一个逐步解决方案,并由人类专家标注错误位置。模型需要识别出第一个错误的步骤,或者得出所有步骤都正确的结论。在ProcessBench上,Qwen2.5-Math-PRM-7B表现出色,超越了其他同等规模的PRMs。
         通义千问希望通过ProcessBench和开发PRM的最佳实践,促进未来对推理过程监督的研究和开发。更多细节可查看论文《The Lessons of Developing Process Reward Models in Mathematical Reasoning》,论文链接为https://arxiv.org/pdf/2501.07301


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海