阿里云开源万相2.1

小哪吒

2025年2月25日，阿里云宣布其视频生成大模型万相2.1（Wan）正式开源。此次开源采用Apache 2.0协议，涵盖14B和1.3B两个参数规格的推理代码及权重，支持文生视频和图生视频任务。全球开发者可通过Github、HuggingFace和魔搭社区下载体验。

万相2.1模型在多个关键性能指标上表现卓越。14B版本在指令遵循、复杂运动生成、物理建模和文字视频生成等方面表现突出，尤其在权威评测集Vbench中，以总分86.22%的成绩大幅领先国内外其他模型，稳居榜首。而1.3B版本不仅超越了更大尺寸的开源模型，甚至接近一些闭源模型的表现，且仅需8.2GB显存即可在消费级显卡上生成480P视频，适合二次开发和学术研究。

技术层面，万相2.1基于DiT和线性噪声轨迹Flow Matching范式，通过自研高效的因果3D VAE架构、可扩展的预训练策略、大规模数据链路构建及自动化评估指标等创新，实现了生成能力的重大进步。其视频Diffusion Transformer架构通过Full Attention机制确保长时程时空依赖的有效建模，进一步提升了视频生成的时空一致性。

此次开源是阿里云大模型战略的重要一步。自2023年以来，阿里云坚定走大模型开源路线，其千问（Qwen）衍生模型数量已超10万个，成为全球最大的AI模型家族。随着万相的开源，阿里云实现了全模态、全尺寸大模型的开源布局。
开源社区方面，万相已在Github、HuggingFace和魔搭社区全面支持多种主流框架，包括Gradio体验和xDiT并行加速推理，Diffusers和ComfyUI也在快速接入中，极大降低了开发门槛，为开发者提供了灵活的选择。