智谱AI CEO张鹏在7月26日的智谱 Open Day上宣布,AI生成视频模型清影(Ying)正式上线智谱清言。这款模型能够将创意文字转化为视频,仅需30秒即可生成一段6秒长、1440x960清晰度、3:2比例、16fps帧率的视频。所有C端用户现可通过清影(Ying)体验AI文生视频和图生视频的能力。
张鹏强调,Sora带来的AI大模型新玩法,使得基于任意文字生成视频成为可能。清影(Ying)的加入,标志着这一领域的新高度。用户只需输入文字,选择风格(如卡通3D、黑白老照片、油画、电影感等),即可生成个性化的AI视频。此外,用户还可以上传图片,让AI赋予其动态效果。
智谱AI致力于通过快速迭代,不断提升生成式视频模型的能力。在研发过程中,Scaling Law在算法和数据方面发挥了重要作用。张鹏表示,随着算法和数据的不断迭代,相信Scaling Law将继续展现其强大威力。清影(Ying)的视频生成模型CogVideoX,通过优化,推理速度相比前代提升了6倍,理论上生成6秒视频仅需30秒。
智谱自研的端到端视频理解模型,能够为海量视频数据生成详细且贴合内容的描述,增强模型的文本理解和指令遵循能力。此外,智谱AI还自研了高效三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,配合3D RoPE位置编码模块,更有利于捕捉帧间关系,建立视频中的长程依赖。CogVideoX模型已同步上线智谱AI大模型开放平台bigmodel.cn,开发者可通过API体验和使用文生视频及图生视频的模型能力。
智谱AI生成式视频研发得到了北京市的大力支持。北京正在以海淀区为核心打造人工智能产业高地,为智谱AI提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。算力支持来自于亦庄集群,北京亦庄人工智能公共算力平台已建成。合作伙伴bilibili和华策影视也参与了模型共建。
人工智能行业对多模态模型的探索仍处于初级阶段,清影(Ying)将继续迭代,智谱AI将持续努力打造对标世界先进水平的模型产品矩阵,致力于通过大模型链接物理世界的亿级用户,为各行业带来创新与变革,加速迈向通用人工智能时代。
|