阿里云正式推出了其新版本的开放基础模型Qwen——Qwen2.5-Coder-32B-Instruct。Qwen2.5-Coder不仅仅是一个简单的编码模型,而是一系列针对开发者需求而设计的编码模型。
Qwen2.5-Coder相较于前一版本CodeQwen1.5有显著提升。Hugging Face的机器学习增长负责人Ahsen Khaliq在LinkedIn上分享了他使用该模型创建井字棋游戏的经历,称其效果与Claude的作品相似。阿里在官方博客中表示,此系列的推出将促进开放代码大语言模型的进一步发展,而Qwen2.5-Coder系列模型已在Hugging Face上公开。
Qwen2.5-Coder的架构涵盖六种不同的模型规模:0.5B、1.5B、3B、7B、14B和32B参数。尽管所有模型在头部尺寸上保持一致,但在其他关键方面存在差异。阿里Qwen核心维护者Binyuan Hui在X平台上展示了他用Qwen2.5-Coder创建的有趣游戏,强调了该模型在自动化代码生成方面的强大能力。
根据今年早些时候发布的官方研究,构建高质量的大规模预训练模型需要多样化的数据。为此,Qwen团队与阿里集团共同开发了一种名为Qwen2.5-Coder-Data的数据集,包含源代码数据、文本-代码对齐数据、合成数据、数学数据和文本数据五种主要数据类型。
在完成文件级预训练后,阿里云还进行了库级预训练,以提升模型的长文本处理能力。这一阶段将上下文长度从8192个标记扩展至32768个标记,并将RoPE的基频从10000调整至1000000。 Qwen2.5-Coder系列在开源编码模型中树立了新的标杆,特别是其旗舰产品Qwen2.5-Coder-32B-Instruct。该模型在代码生成方面表现优异,能够匹敌GPT-4o,在EvalPlus、LiveCodeBench和BigCodeBench等基准测试中取得优异成绩。
|