智谱AI 上线视频模型清影（Ying）：生成6秒视频仅需30秒

小哪吒

智谱AI CEO张鹏在7月26日的智谱 Open Day上宣布，AI生成视频模型清影（Ying）正式上线智谱清言。这款模型能够将创意文字转化为视频，仅需30秒即可生成一段6秒长、1440x960清晰度、3:2比例、16fps帧率的视频。所有C端用户现可通过清影（Ying）体验AI文生视频和图生视频的能力。

张鹏强调，Sora带来的AI大模型新玩法，使得基于任意文字生成视频成为可能。清影（Ying）的加入，标志着这一领域的新高度。用户只需输入文字，选择风格（如卡通3D、黑白老照片、油画、电影感等），即可生成个性化的AI视频。此外，用户还可以上传图片，让AI赋予其动态效果。

智谱AI致力于通过快速迭代，不断提升生成式视频模型的能力。在研发过程中，Scaling Law在算法和数据方面发挥了重要作用。张鹏表示，随着算法和数据的不断迭代，相信Scaling Law将继续展现其强大威力。清影（Ying）的视频生成模型CogVideoX，通过优化，推理速度相比前代提升了6倍，理论上生成6秒视频仅需30秒。

智谱自研的端到端视频理解模型，能够为海量视频数据生成详细且贴合内容的描述，增强模型的文本理解和指令遵循能力。此外，智谱AI还自研了高效三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，配合3D RoPE位置编码模块，更有利于捕捉帧间关系，建立视频中的长程依赖。CogVideoX模型已同步上线智谱AI大模型开放平台bigmodel.cn，开发者可通过API体验和使用文生视频及图生视频的模型能力。

智谱AI生成式视频研发得到了北京市的大力支持。北京正在以海淀区为核心打造人工智能产业高地，为智谱AI提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。算力支持来自于亦庄集群，北京亦庄人工智能公共算力平台已建成。合作伙伴bilibili和华策影视也参与了模型共建。

人工智能行业对多模态模型的探索仍处于初级阶段，清影（Ying）将继续迭代，智谱AI将持续努力打造对标世界先进水平的模型产品矩阵，致力于通过大模型链接物理世界的亿级用户，为各行业带来创新与变革，加速迈向通用人工智能时代。