Qwen团队推出其最新实验性研究模型QwQ-32B-Preview,旨在提升人工智能的推理能力。该模型通过深入探索和反复试验,发现当AI有足够的时间进行思考、质疑和反思时,其对数学和编程的理解将得到显著增强。 尽管QwQ-32B-Preview展现出了卓越的分析能力,但团队也坦诚其存在局限性。模型在回答中可能会混合使用不同语言,影响表达的连贯性;在处理复杂逻辑问题时,可能会陷入递归推理模式,导致回答冗长且不够聚焦;安全性方面,尽管已具备基础安全管控,但仍需进一步增强,以防止产生不恰当或存在偏见的回答。 在数学和编程领域,QwQ-32B-Preview的表现尤为出色。在GPQA评测集中,模型展现了65.2%的研究生水平科学推理能力;在AIME评测中,证明了50.0%的数学问题解决技能;在MATH-500评测中,体现了90.6%的全面理解;在LiveCodeBench评测中,验证了50.0%的实际编程场景中的出色表现。
Qwen团队强调,QwQ-32B-Preview在数学和编程领域的表现仅是其能力的一部分,其他领域仍有提升空间。团队正通过持续优化,努力提升模型的综合能力。此外,Qwen团队邀请公众一同踏上理解之旅,共同探索AI推理的未知之界。模型的体验链接已在Hugging Face平台发布,供公众体验和反馈。 huggingface: https://huggingface.co/Qwen/QwQ-32B-Preview demo: https://huggingface.co/spaces/Qwen/QwQ-32B-preview
|