当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 生数科技Vidu 1.5新版本发布,开启视觉上下文时代

北京生数科技有限公司(以下简称“生数科技”)宣布(https://mp.weixin.qq.com/s/Hsuxys06l-ADoEa0NRbNGQ),其旗下产品Vidu 1.5新版本(www.vidu.studio)正式上线,标志着视觉模型在理解上下文方面取得了世界领先水平的突破。这一进步不仅提升了视频生成的一致性,也为加速通用人工智能(AGI)的到来提供了新的动力。

640.webp

Vidu 1.5的发布,揭示了视觉模型在经过充分训练后,能够展现出对上下文的深刻理解和记忆能力,这是智能涌现的显著特征。生数科技的核心团队来自清华大学人工智能研究院,致力于通过生成式AI技术提升人类的创造力与生产力。


Vidu 1.5在“多主体一致性”难题上取得了重大进展。此前,Vidu已具备角色一致性生成能力,通过锁定人物面部特征解决了视频生成中的关键痛点。9月,Vidu全球率先发布了“主体一致性”功能,将面部一致性拓展至全身一致性,并扩展至动物、物体、虚拟角色等任意主体。用户只需上传自定义主体图片,便可实现在连续不同场景中的主体特征保持一致。


Vidu的技术突破主要体现在三个方面:复杂主体的精准控制、人物面部特征和动态表情的自然一致性、以及多主体一致性。Vidu允许用户上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。此外,Vidu还支持融合不同主体特征,创造出全新的角色或物体。


Vidu 1.5的智能涌现效应,使得模型能够通过视觉上下文完成大量新任务的直接生成。从单输入主体的文/图生视频,到多输入参考信息,Vidu的未来将进一步提升模型的能力表现。Vidu 1.5延续了其业界领先的生成效率,能在不到30秒内生成一段视频。


秉承通用性的理念,Vidu的设计哲学与大型语言模型(LLM)一致,将所有问题统一为视觉输入和视觉输出的问题。Vidu和LLM均采用单个Transformer统一建模变长的输入和输出,从视频数据的压缩中获取智能。


Vidu 1.5展现了视觉模型全新的“智能涌现”,展示了其强大的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。至此,Vidu不再仅仅是高质量、高效的视频生成器,它还能在生成过程中融入上下文信息和记忆,这是视觉模态智能的“大跨越”。视觉模型将具备更强的认知能力,成为AGI的一块重要拼图,加速其到来。


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海