2024-2-20【中泰证券】Sora是如何成功的？——技术复盘与产业分析

小哪吒

链接: https://pan.baidu.com/s/1oWYAk34PAtZpWoTSgsh20Q 密码: c1rk

这份文件是中泰证券研究所发布的一份关于Sora视频生成模型的研究报告。以下是报告的核心内容概述：

Sora的成就：
- Sora是一个视频生成模型，能够生成长达60秒、1080p分辨率的视频。
- 它遵循了大型语言模型（LLM）的范式，结合了强大的算力和工程能力，以及GPT和DALL·E模型的技术积累。
- Sora在视频生成领域的通用性强，有望统一视频生成生态，并促进下游应用发展。
技术路线与创新：
- Sora采用了patches向量化与transformer架构结合的技术路线，使得模型能够处理不同大小、尺寸、分辨率的视频。
- 使用GPT生成prompt，解决了模态之间的对齐问题，提升了生成效果。
- Sora支持多模态输入，能够根据文本和图片输入生成视频，并且可以编辑、延伸或生成自定义尺寸的视频。
产业发展：
- Sora的推出被视为产业的里程碑，其多模型协同的方式接近于通用人工智能（AGI）。
- Sora可能成为视频生成领域的基础模型（Base Model），导致模型层的竞争格局收敛。
安全问题：
- 类似Sora的视频生成模型可能加大深度伪造（Deepfakes）的威胁，需要公司进行安全布局。
风险提示：
- AI技术更新迅速，公司需要跟上技术应用的步伐。
- 数据更新可能不及时，存在时效性风险。
- 新技术可能带来潜在的安全问题。
推荐关注方向：
- 算力：关注浪潮信息、中科曙光等公司。
- 应用：关注万兴科技、金山办公等公司。
- 安全：关注启明星辰、三未信安等公司。
Sora的训练与能力：
- Sora在训练过程中表现出了缩放效应，即在更大算力水平下表现更好。
- Sora能够模拟3D一致性、长期一致性和物体持久性，以及与世界交互的能力。
训练思路：
- Sora的训练结合了Diffusion Model思想和LLM范式，通过大规模无监督训练获得通用涌现能力。
技术创新：
- Sora采用了spacetime latent patches作为视频数据的基本嵌入方法，保留了原视频的时空信息。

报告还提到了OpenAI对Sora进行的内测，以及对潜在危害或风险的评估。同时，报告强调了AI技术在实际应用中可能遇到的挑战和风险。