当前位置:»资讯 报告 充电必备

[报告] 2024-2-20【中泰证券】Sora是如何成功的?——技术复盘与产业分析

WX20240223-231925@2x.png
链接: https://pan.baidu.com/s/1oWYAk34PAtZpWoTSgsh20Q  密码: c1rk

这份文件是中泰证券研究所发布的一份关于Sora视频生成模型的研究报告。以下是报告的核心内容概述:
  • Sora的成就
    • Sora是一个视频生成模型,能够生成长达60秒、1080p分辨率的视频。
    • 它遵循了大型语言模型(LLM)的范式,结合了强大的算力和工程能力,以及GPT和DALL·E模型的技术积累。
    • Sora在视频生成领域的通用性强,有望统一视频生成生态,并促进下游应用发展。
  • 技术路线与创新
    • Sora采用了patches向量化与transformer架构结合的技术路线,使得模型能够处理不同大小、尺寸、分辨率的视频。
    • 使用GPT生成prompt,解决了模态之间的对齐问题,提升了生成效果。
    • Sora支持多模态输入,能够根据文本和图片输入生成视频,并且可以编辑、延伸或生成自定义尺寸的视频。
  • 产业发展
    • Sora的推出被视为产业的里程碑,其多模型协同的方式接近于通用人工智能(AGI)。
    • Sora可能成为视频生成领域的基础模型(Base Model),导致模型层的竞争格局收敛。
  • 安全问题
    • 类似Sora的视频生成模型可能加大深度伪造(Deepfakes)的威胁,需要公司进行安全布局。
  • 风险提示
    • AI技术更新迅速,公司需要跟上技术应用的步伐。
    • 数据更新可能不及时,存在时效性风险。
    • 新技术可能带来潜在的安全问题。
  • 推荐关注方向
    • 算力:关注浪潮信息、中科曙光等公司。
    • 应用:关注万兴科技、金山办公等公司。
    • 安全:关注启明星辰、三未信安等公司。
  • Sora的训练与能力
    • Sora在训练过程中表现出了缩放效应,即在更大算力水平下表现更好。
    • Sora能够模拟3D一致性、长期一致性和物体持久性,以及与世界交互的能力。
  • 训练思路
    • Sora的训练结合了Diffusion Model思想和LLM范式,通过大规模无监督训练获得通用涌现能力。
  • 技术创新
    • Sora采用了spacetime latent patches作为视频数据的基本嵌入方法,保留了原视频的时空信息。

报告还提到了OpenAI对Sora进行的内测,以及对潜在危害或风险的评估。同时,报告强调了AI技术在实际应用中可能遇到的挑战和风险。


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海