阿里通义开源了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM

小哪吒

2025年1月16日，通义千问Qwen宣布开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，包括72B和7B两个版本。这一举措旨在提升大型语言模型（LLMs）在数学推理过程中的可靠性和可信度，自动识别推理过程中的错误，如计算或逻辑错误，这些错误可能导致不正确的结论，即使最终答案正确，也可能削弱模型推理过程的可信度。

Qwen2.5-Math-PRM模型通过创新融合蒙特卡洛估计方法与模型评判，提供更可靠的推理过程反馈。7B版本的Qwen2.5-Math-PRM在识别推理错误步骤的能力上，已超越GPT-4o。同时，通义千问还开源了首个步骤级评估标准ProcessBench，为大模型推理过程错误评估提供了新的标准参考。

ProcessBench由3400个测试案例组成，主要集中在竞赛和奥林匹克级别的数学问题上。每个测试案例包含一个逐步解决方案，并由人类专家标注错误位置。模型需要识别出第一个错误的步骤，或者得出所有步骤都正确的结论。在ProcessBench上，Qwen2.5-Math-PRM-7B表现出色，超越了其他同等规模的PRMs。
通义千问希望通过ProcessBench和开发PRM的最佳实践，促进未来对推理过程监督的研究和开发。更多细节可查看论文《The Lessons of Developing Process Reward Models in Mathematical Reasoning》，论文链接为https://arxiv.org/pdf/2501.07301。