北京智源人工智能研究院(BAAI)近日宣布推出See3D,一款基于大规模无标注互联网视频学习的3D生成模型。See3D采用视觉条件技术,通过视频中的视觉线索生成多视角图像,实现相机方向可控且几何一致的3D效果。该技术突破了传统3D生成模型对相机参数的依赖,降低了对昂贵3D或相机标注的需求,提高了从互联网视频学习3D先验的效率。
See3D支持零样本和开放世界的3D生成,无需微调即可执行3D编辑、表面重建等任务,展现了其在3D创作应用中的广泛适用性。模型、代码和Demo均已开源,技术细节可通过论文和项目网站查阅。See3D的推出,不仅解锁了3D互动世界的可能性,还实现了基于稀疏图片的3D重建和开放世界3D生成,为3D研究社区提供了新思路。 研究团队通过自动化流程筛选视频数据,构建了WebVi3D数据集,包含1600万视频片段的3.2亿帧图像,为3D生成提供了高质量、多样化的数据基础。See3D的3D生成框架支持物体级与场景级复杂相机轨迹下的长序列视图生成,展现了数据扩展性、相机可控性和几何一致性的优势。智源研究院希望See3D能激发对大规模无相机标注数据的关注,降低3D数据采集成本,缩小与现有闭源3D解决方案的差距。 原文:https://mp.weixin.qq.com/s/t2S2ZYR5p8o5APOd_rWkSw 相关的模型、代码、Demo均已开源,更多技术细节请参考See3D论文。
|