阿里开源全球最强开源推理模型：QwQ-32B

小哪吒

阿里云旗下的通义千问 Qwen 团队推出了最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型，其性能可与具备 6710 亿参数（其中 370 亿被激活）的 DeepSeek-R1 媲美。

      QwQ-32B 在一系列基准测试中展现了出色的表现。在测试数学能力的 AIME24 评测集上，以及评估代码能力的 LiveCodeBench 中，QwQ-32B 表现与 DeepSeek-R1 相当，远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型。在由 Meta 首席科学家杨立昆领衔的 “最难 LLMs 评测榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 测试集、以及由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中，QwQ-32B 的得分均超越了 DeepSeek-R1。
      阿里云通过大规模强化学习（RL）来提升 QwQ-32B 的推理能力。在冷启动的基础上，特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型（reward model）不同，阿里云通过校验生成答案的正确性来为数学问题提供反馈，并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。在 RL 扩展过程中，随着训练轮次的推进，数学和编程领域的性能均表现出持续的提升。
      目前，QwQ-32B 已在 Hugging Face 和 ModelScope 开源，并采用了 Apache 2.0 开源协议。用户可以通过 Qwen Chat 直接体验 QwQ-32B 的强大功能。