See Video, Get 3D，智源开源无标注视频学习3D生成模型See3D

小哪吒

北京智源人工智能研究院（BAAI）近日宣布推出See3D，一款基于大规模无标注互联网视频学习的3D生成模型。See3D采用视觉条件技术，通过视频中的视觉线索生成多视角图像，实现相机方向可控且几何一致的3D效果。该技术突破了传统3D生成模型对相机参数的依赖，降低了对昂贵3D或相机标注的需求，提高了从互联网视频学习3D先验的效率。

See3D支持零样本和开放世界的3D生成，无需微调即可执行3D编辑、表面重建等任务，展现了其在3D创作应用中的广泛适用性。模型、代码和Demo均已开源，技术细节可通过论文和项目网站查阅。See3D的推出，不仅解锁了3D互动世界的可能性，还实现了基于稀疏图片的3D重建和开放世界3D生成，为3D研究社区提供了新思路。

研究团队通过自动化流程筛选视频数据，构建了WebVi3D数据集，包含1600万视频片段的3.2亿帧图像，为3D生成提供了高质量、多样化的数据基础。See3D的3D生成框架支持物体级与场景级复杂相机轨迹下的长序列视图生成，展现了数据扩展性、相机可控性和几何一致性的优势。智源研究院希望See3D能激发对大规模无相机标注数据的关注，降低3D数据采集成本，缩小与现有闭源3D解决方案的差距。

原文：https://mp.weixin.qq.com/s/t2S2ZYR5p8o5APOd_rWkSw

相关的模型、代码、Demo均已开源，更多技术细节请参考See3D论文。

论文地址: https://arxiv.org/abs/2412.06699

项目地址: https://vision.baai.ac.cn/see3d