2025年2月25日,阿里云宣布其视频生成大模型万相2.1(Wan)正式开源。此次开源采用Apache 2.0协议,涵盖14B和1.3B两个参数规格的推理代码及权重,支持文生视频和图生视频任务。全球开发者可通过Github、HuggingFace和魔搭社区下载体验。
万相2.1模型在多个关键性能指标上表现卓越。14B版本在指令遵循、复杂运动生成、物理建模和文字视频生成等方面表现突出,尤其在权威评测集Vbench中,以总分86.22%的成绩大幅领先国内外其他模型,稳居榜首。而1.3B版本不仅超越了更大尺寸的开源模型,甚至接近一些闭源模型的表现,且仅需8.2GB显存即可在消费级显卡上生成480P视频,适合二次开发和学术研究。
技术层面,万相2.1基于DiT和线性噪声轨迹Flow Matching范式,通过自研高效的因果3D VAE架构、可扩展的预训练策略、大规模数据链路构建及自动化评估指标等创新,实现了生成能力的重大进步。其视频Diffusion Transformer架构通过Full Attention机制确保长时程时空依赖的有效建模,进一步提升了视频生成的时空一致性。
此次开源是阿里云大模型战略的重要一步。自2023年以来,阿里云坚定走大模型开源路线,其千问(Qwen)衍生模型数量已超10万个,成为全球最大的AI模型家族。随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源布局。
开源社区方面,万相已在Github、HuggingFace和魔搭社区全面支持多种主流框架,包括Gradio体验和xDiT并行加速推理,Diffusers和ComfyUI也在快速接入中,极大降低了开发门槛,为开发者提供了灵活的选择。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!