链接: https://pan.baidu.com/s/1oWYAk34PAtZpWoTSgsh20Q 密码: c1rk
这份文件是中泰证券研究所发布的一份关于Sora视频生成模型的研究报告。以下是报告的核心内容概述: Sora的成就: - Sora是一个视频生成模型,能够生成长达60秒、1080p分辨率的视频。
- 它遵循了大型语言模型(LLM)的范式,结合了强大的算力和工程能力,以及GPT和DALL·E模型的技术积累。
- Sora在视频生成领域的通用性强,有望统一视频生成生态,并促进下游应用发展。
技术路线与创新: - Sora采用了patches向量化与transformer架构结合的技术路线,使得模型能够处理不同大小、尺寸、分辨率的视频。
- 使用GPT生成prompt,解决了模态之间的对齐问题,提升了生成效果。
- Sora支持多模态输入,能够根据文本和图片输入生成视频,并且可以编辑、延伸或生成自定义尺寸的视频。
产业发展: - Sora的推出被视为产业的里程碑,其多模型协同的方式接近于通用人工智能(AGI)。
- Sora可能成为视频生成领域的基础模型(Base Model),导致模型层的竞争格局收敛。
安全问题: - 类似Sora的视频生成模型可能加大深度伪造(Deepfakes)的威胁,需要公司进行安全布局。
风险提示: - AI技术更新迅速,公司需要跟上技术应用的步伐。
- 数据更新可能不及时,存在时效性风险。
- 新技术可能带来潜在的安全问题。
推荐关注方向: - 算力:关注浪潮信息、中科曙光等公司。
- 应用:关注万兴科技、金山办公等公司。
- 安全:关注启明星辰、三未信安等公司。
Sora的训练与能力: - Sora在训练过程中表现出了缩放效应,即在更大算力水平下表现更好。
- Sora能够模拟3D一致性、长期一致性和物体持久性,以及与世界交互的能力。
训练思路: - Sora的训练结合了Diffusion Model思想和LLM范式,通过大规模无监督训练获得通用涌现能力。
技术创新: - Sora采用了spacetime latent patches作为视频数据的基本嵌入方法,保留了原视频的时空信息。
报告还提到了OpenAI对Sora进行的内测,以及对潜在危害或风险的评估。同时,报告强调了AI技术在实际应用中可能遇到的挑战和风险。
|