潞晨科技正式推出 Open-Sora 2.0,一款全新开源的 SOTA 视频生成模型。该模型仅用 20 万美元(224 张 GPU)成功训练出商业级 11B 参数视频生成大模型,与 Meta 视频模型动辄数百万美元的训练成本形成鲜明对比。
Open-Sora 2.0 在多项关键指标上表现卓越,权威评测 VBench 及用户偏好测试均证实其出色性能。其训练后在 VBench 和人工偏好评测上取得与高昂成本开发的主流闭源大模型同等水平。在视觉表现、文本一致性和动作表现三个评估维度上,Open-Sora 在至少两个指标上超越了开源 SOTA HunyuanVideo,以及商业模型 Runway Gen-3 Alpha 等。
技术方面,Open-Sora 2.0 延续 3D 自编码器和 Flow Matching 训练框架,引入 3D 全注意力机制,采用 MMDiT 架构,更精准捕捉文本与视频内容关系。训练方法上,通过严格数据筛选、优先低分辨率训练、先训图生视频任务及高效并行训练方案等削减开销,实现高性能与低成本平衡。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!