生数科技Vidu 1.5新版本发布，开启视觉上下文时代

小哪吒

北京生数科技有限公司（以下简称“生数科技”）宣布（https://mp.weixin.qq.com/s/Hsuxys06l-ADoEa0NRbNGQ），其旗下产品Vidu 1.5新版本（www.vidu.studio）正式上线，标志着视觉模型在理解上下文方面取得了世界领先水平的突破。这一进步不仅提升了视频生成的一致性，也为加速通用人工智能（AGI）的到来提供了新的动力。

Vidu 1.5的发布，揭示了视觉模型在经过充分训练后，能够展现出对上下文的深刻理解和记忆能力，这是智能涌现的显著特征。生数科技的核心团队来自清华大学人工智能研究院，致力于通过生成式AI技术提升人类的创造力与生产力。

Vidu 1.5在“多主体一致性”难题上取得了重大进展。此前，Vidu已具备角色一致性生成能力，通过锁定人物面部特征解决了视频生成中的关键痛点。9月，Vidu全球率先发布了“主体一致性”功能，将面部一致性拓展至全身一致性，并扩展至动物、物体、虚拟角色等任意主体。用户只需上传自定义主体图片，便可实现在连续不同场景中的主体特征保持一致。

Vidu的技术突破主要体现在三个方面：复杂主体的精准控制、人物面部特征和动态表情的自然一致性、以及多主体一致性。Vidu允许用户上传多个主体图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。此外，Vidu还支持融合不同主体特征，创造出全新的角色或物体。

Vidu 1.5的智能涌现效应，使得模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频，到多输入参考信息，Vidu的未来将进一步提升模型的能力表现。Vidu 1.5延续了其业界领先的生成效率，能在不到30秒内生成一段视频。

秉承通用性的理念，Vidu的设计哲学与大型语言模型（LLM）一致，将所有问题统一为视觉输入和视觉输出的问题。Vidu和LLM均采用单个Transformer统一建模变长的输入和输出，从视频数据的压缩中获取智能。

Vidu 1.5展现了视觉模型全新的“智能涌现”，展示了其强大的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力，还能够在生成过程中进行记忆管理。至此，Vidu不再仅仅是高质量、高效的视频生成器，它还能在生成过程中融入上下文信息和记忆，这是视觉模态智能的“大跨越”。视觉模型将具备更强的认知能力，成为AGI的一块重要拼图，加速其到来。