通义千问Qwen1.5-MoE开源

小哪吒

本帖最后由小哪吒于 3-30 21:24 编辑

通义千问Qwen1.5-MoE开源！魔搭社区推理训练最佳实践教程来啦！

模型链接和下载

Qwen1.5-MoE模型系列现已在ModelScope社区开源，包括：

Qwen1.5-MoE-A2.7B-Chat：https://modelscope.cn/models/qwen/Qwen1.5-MoE-A2.7B-Chat

Qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4：https://modelscope.cn/models/qwen/Qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4

Qwen1.5-MoE-A2.7B：https://modelscope.cn/models/qwen/Qwen1.5-MoE-A2.7B

通义千问团队推出Qwen系列的首个MoE模型，Qwen1.5-MoE-A2.7B。它仅拥有27亿个激活参数，但其性能却能与当前最先进的70亿参数模型，如Mistral 7B和Qwen1.5-7B相媲美。相较于包含65亿个Non-Embedding参数的Qwen1.5-7B，Qwen1.5-MoE-A2.7B只有20亿个Non-Embedding参数，约为原模型大小的三分之一。此外，相比Qwen1.5-7B，Qwen1.5-MoE-A2.7B的训练成本降低了75%，推理速度则提升了1.74倍。

模型结构

Qwen1.5-MoE模型采用了特别设计的MoE架构。通常情况下，如Mixtral等方法所示，每个transformer block中的MoE层会配备8个expert，并采用top-2门控策略进行routing。这种配置还存在很大的优化空间。Qwen1.5-MoE的架构进行了多项改进：

Finegrained experts
初始化
新的routing机制

DeepSeek-MoE和DBRX已经证明了finegrained experts的有效性。从FFN层过渡到MoE层时，一般只是简单地复制多次FFN来实现多个expert。而finegrained experts的目标是在不增加参数数量的前提下生成更多expert。为了实现这一点，Qwen1.5-MoE模型将单个FFN分割成几个部分，每个部分作为一个独立的expert。通义千问团队设计了具有总共64个expert的的MoE，对比其他配置，通义千问团队认为这个实现能达到效果和效率的最优。

模型初始化阶段至关重要。初步实验表明，从零开始训练MoE模型可能效率低下，且难以提升至预期的最优性能水平。因此，通义千问团队首先利用已有的Qwen-1.8B，将其改造为Qwen1.5-MoE-A2.7B。此外，在初始化阶段引入随机性可以显著加快收敛速度，并在整个预训练过程中带来更好的整体性能表现。

目前，一个明显的趋势是在MoE中实现共享expert与routing expert。从更宏观的角度看，这是一种广义的routing方法，因为在没有共享expert的情况下，实际上就退化为传统的MoE路由设置。对于Qwen1.5-MoE-A2.7B模型，通义千问团队在其中整合了4个总是被激活的共享expert和每次只激活其中4个的60个routing expert。这种方式非常灵活，同时在实验中表现最佳。

性能

为了全面评估和展示Qwen1.5-MoE-A2.7B的能力和优势，对base模型和chat模型进行了评估。对于base模型，在MMLU、GSM8K和HumanEval评估了其语言理解、数学和代码能力。此外，为了评估其多语言能力，按照Qwen1.5的评测方法在数学、理解、考试和翻译等多个领域的多语言基准测试中进行了测试，并在"Multilingual"列中给出了综合得分。对于chat模型，没有使用传统的基准测试，而是使用MT-Bench进行了测试。

Qwen1.5-MoE-A2.7B在与最佳的7B模型相比取得了非常接近的性能。同时，也发现在chat模型方面仍有改进的空间。通义千问团队将继续研究如何更加有效地微调MoE模型。

训练成本与推理效率

MoE模型的训练成本与dense模型存在显著差异。尽管MoE模型通常拥有更多的参数，但由于其稀疏性，训练开销可以显著降低。先对比各个模型的三个关键参数，分别是总参数数量、激活参数数量和Non-embedding参数：

不难看出，尽管Qwen1.5-MoE总参数量较大，但Non-embedding激活参数量远小于7B模型。在实践中，观察到使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B，训练成本显著降低了75%。另外，由于Qwen1.5-MoE的初始化方法，不需要训练同样数量的token即可达到很好的模型效果，这也显著降低了训练成本。

如下是使用vLLM部署了Qwen1.5-7B和Qwen1.5-MoE-A2.7B模型，并使用单个NVIDIA A100-80G GPU进行性能测试。在实验设置中，输入token数设置为1000，输出token数设置为1000，通过吞吐量（每秒处理的请求数）和每秒token数（TPS）来衡量性能：

Qwen1.5-MoE-A2.7B与Qwen1.5-7B相比，速度提高了约1.74倍。这种加速主要归因于MoE在前向过程中仅激活了其总参数的一小部分，从而降低了计算需求。此外，共享expert也提升了模型的推理效率。因此，尽管MoE模型增加了内存需求，但它们在吞吐性能和推理速度方面都表现出明显的优势。

[行业动态] 通义千问Qwen1.5-MoE开源

相关帖子

硅谷大亨参与争吵：埃隆·马斯克 (Elon Musk) 与 OpenAI 之争

震撼发布！马斯克的xAI突破极限，3140亿参数巨兽Grok-1撼动AI界！

阿里通义千问开源320亿参数模型Qwen1.5-32B

HuggingFace 发布 Parler-TTS：高质量、可控的文本转语音 (TTS) 开源模型

Hugging Face 推出 8B 开源视觉语言模型 Idefics2

开源还是闭源？周鸿祎、王小川与李彦宏的PK揭示了AI发展的关键分歧

为什么Meta首席执行官马克·扎克伯格愿意开源价值100亿美元的Llama 3 大模型

Stability AI 推出开源音频大模型Stable Audio Open

腾讯混元推出轻量级开源模型 -A13B