阿里开源Qwen2.5-Coder，推动开放代码模型发展

小哪吒

阿里云正式推出了其新版本的开放基础模型Qwen——Qwen2.5-Coder-32B-Instruct。Qwen2.5-Coder不仅仅是一个简单的编码模型，而是一系列针对开发者需求而设计的编码模型。

Qwen2.5-Coder相较于前一版本CodeQwen1.5有显著提升。Hugging Face的机器学习增长负责人Ahsen Khaliq在LinkedIn上分享了他使用该模型创建井字棋游戏的经历，称其效果与Claude的作品相似。阿里在官方博客中表示，此系列的推出将促进开放代码大语言模型的进一步发展，而Qwen2.5-Coder系列模型已在Hugging Face上公开。

Qwen2.5-Coder的架构涵盖六种不同的模型规模：0.5B、1.5B、3B、7B、14B和32B参数。尽管所有模型在头部尺寸上保持一致，但在其他关键方面存在差异。阿里Qwen核心维护者Binyuan Hui在X平台上展示了他用Qwen2.5-Coder创建的有趣游戏，强调了该模型在自动化代码生成方面的强大能力。

根据今年早些时候发布的官方研究，构建高质量的大规模预训练模型需要多样化的数据。为此，Qwen团队与阿里集团共同开发了一种名为Qwen2.5-Coder-Data的数据集，包含源代码数据、文本-代码对齐数据、合成数据、数学数据和文本数据五种主要数据类型。

在完成文件级预训练后，阿里云还进行了库级预训练，以提升模型的长文本处理能力。这一阶段将上下文长度从8192个标记扩展至32768个标记，并将RoPE的基频从10000调整至1000000。

Screenshot-2024-11-11-at-1.55.58 PM-1.png

Qwen2.5-Coder系列在开源编码模型中树立了新的标杆，特别是其旗舰产品Qwen2.5-Coder-32B-Instruct。该模型在代码生成方面表现优异，能够匹敌GPT-4o，在EvalPlus、LiveCodeBench和BigCodeBench等基准测试中取得优异成绩。