4月25日,阿里通义千问团队发布了Qwen1.5系列的第一个100B+模型,Qwen1.5-110B,该模型在基本模型评估中实现了与Meta-Llama3-70B的可比性能,在聊天评估中实现了出色的性能,包括MT-Bench和AlpacaEval 2.0。
模型GitHub链接 https://github.com/QwenLM/Qwen1.5
HuggingFace链接 https://huggingface.co/Qwen/Qwen1.5-110B
模型特征
Qwen1.5-110B与其他Qwen1.5型号相似,并使用相同的变压器解码器架构构建。它由分组查询关注(GQA)组成,并且可以高效地提供模型服务。该模型支持上下文长度的32K令牌,该模型仍然是多语言的,支持大量语言,包括英语、中文、法语、西班牙语、德语、俄语、韩语、日语、越南语、阿拉伯语等。
模型质量
我们对基础语言模型进行了一系列评估,并与Meta-Llama3-70B、最近的SOTA语言模型以及Mixtral-8x22B进行比较。
上述结果表明,新的110B型号在基本能力方面至少与Llama-3-70B型号具有竞争力。就该模型而言,我们没有大幅改变训练前和训练后配方,因此我们认为与72B相比,性能的提高来自于模型尺寸的增加。 我们还在MT-Bench和AlpacaEval 2.0上测试聊天模型。 与之前发布的72B模型相比,在聊天模型的两个基准评估中,110B的表现要好得多。评估的持续改进表明,即使不大幅改变培训后食谱,更强大和更大的基础语言模型也可以带来更好的聊天模型。
|