Google DeepMind团队宣布了一项重大突破:Genie 2,一款能够生成多样化、可控制动作的3D环境的基础世界模型。这一技术进展标志着在训练和评估具身代理领域迈出了重要一步。 Genie 2模型基于单个提示图像,能够创建出丰富的3D世界,供人类或AI代理通过键盘和鼠标输入进行交互。这一能力不仅为未来的智能体提供了无限新世界的培训和评估环境,也为原型互动体验的创意工作流程开辟了新天地。 在AI研究领域,游戏一直扮演着重要角色。从早期的Atari游戏合作,到AlphaGo和AlphaStar的突破性成果,再到与游戏开发者合作研究通用智能体,游戏始终是DeepMind研究的核心。然而,训练更通用的具身智能体的传统瓶颈在于缺乏足够丰富和多样化的训练环境。Genie 2的问世,有望打破这一局限。 Genie 2是一个世界模型,能够模拟虚拟世界,包括采取任何动作的后果。它在大规模视频数据集上进行训练,展现出对象交互、复杂角色动画、物理效果以及建模并预测其他代理行为的能力。这意味着任何人都可以用文字描述他们想要的世界,选择最喜欢的想法,然后进入并与这个新创建的世界互动。 此外,Genie 2还支持快速原型设计,使研究人员能够迅速实验新环境,以训练和测试具身AI代理。例如,通过与Imagen 3结合,Genie 2能够将概念艺术和绘图转化为完全交互式环境,为环境设计创意过程提供快速启动,进一步加速研究进展。 尽管这项研究仍处于早期阶段,但Genie 2展现了在创建多样化3D环境和加速代理研究方面的潜力。DeepMind团队期待继续提高Genie的世界生成能力,以实现更广泛的应用和更一致的体验。
|