生数科技与清华联合发布视频大模型Vidu，16秒1080P高清视频一键生成

小哪吒

【北京，2023年4月27日讯】在今日举行的中关村论坛未来人工智能先锋论坛上，生数科技携手清华大学，共同发布了中国首个长时长、高一致性、高动态性的视频大模型——Vidu。这一突破性的技术成果，标志着中国在人工智能视频生成领域迈入了一个新的里程碑。

Vidu模型采用了生数科技团队原创的Diffusion与Transformer融合架构U-ViT，这一架构在全球范围内首次提出，早于Sora采用的DiT架构。Vidu模型不仅支持一键生成长达16秒、分辨率高达1080P的高清视频内容，而且在视频效果上实现了显著提升，具备了模拟真实物理世界、丰富想象力、多镜头语言和高时空一致性等特点。

Vidu模型的发布，是生数科技在贝叶斯机器学习和多模态大模型长期积累和多项原创性成果的基础上，取得的快速突破。2023年3月，生数科技开源了全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser，该模型在大规模图文数据集LAION-5B上训练而成，支持图文模态间的任意生成和转换。

与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。Vidu在模拟真实物理世界方面表现出色，能够生成细节复杂且符合真实物理规律的场景，如合理的光影效果、细腻的人物表情等。同时，Vidu还具有丰富的想象力，能够创造出真实世界不存在的虚构画面，生成具有深度和复杂性的超现实主义内容。

Vidu的多镜头语言能力，使其能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头。Vidu能够围绕统一主体，在一段画面里实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，为视频注入了丰富的镜头语言。

在时空一致性方面，Vidu在16秒的时长上保持了连贯流畅的表现，随着镜头的移动，人物和场景在时间和空间上能够保持一致。此外，Vidu还特别理解并能够生成特有的中国元素，如熊猫、龙等，展现了对中国传统文化的深刻理解和应用。

值得一提的是，Vidu的短片中的片段都是从头到尾连续生成，没有明显的插帧现象。这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

Vidu的问世，不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证，也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。生数科技表示，大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。因此，在发布之际，生数科技正式推出“Vidu大模型合作伙伴计划”，诚邀产业链上下游企业、研究机构加入，共同构建合作生态，推动人工智能技术的进一步发展和应用。

关于生数科技：

生数科技是一家专注于人工智能领域的高新技术企业，致力于通过自主研发的先进技术，推动人工智能在多模态领域的应用和发展。公司在贝叶斯机器学习、多模态大模型等方面拥有深厚的技术积累和多项原创性成果，是国内人工智能领域的领军企业之一。