谷歌推出Genie:从单个图像创建可玩虚拟世界的人工智能大模型

小哪吒

2月26日，谷歌DeepMind刚刚推出了“Genie”，这是一种可以生成交互式视频游戏的人工智能大模型。可以将任何图像转换为简单的 2D 平台游戏。

Genie 是一个具有 110 亿个参数的基础世界模型，能够在无监督的情况下从无标签的互联网视频中学习，以生成交互式虚拟世界。这些世界可以通过文本、合成图像、照片甚至手绘草图来描述。Genie 的核心在于其潜在动作界面，它允许用户与生成的环境逐帧交互，而无需任何现实世界的动作标签或特定于领域的要求。

Genie在大量公开的互联网视频数据集上进行了没有任何动作标签的训练，可以将任何图像（无论是现实世界的照片、草图、人工智能生成的图像还是绘画）转换为简单的 2D 平台游戏。Genie团队指出，这种方法用途广泛，适用于各个领域。

它不仅可以用于游戏设计，让玩家创建和体验自己的游戏世界，还可以作为训练多面手智能体的基础世界模型。通过从互联网视频中学习潜在动作，Genie 可以生成强化学习 (RL) 环境的策略，这对于训练能够在不同环境中表现良好的智能代理至关重要。

然而，Genie 团队称还有很大改进的空间。例如，Genie 目前的运行速度约为每秒 1 帧，对于实时交互来说速率不够。此外，Genie 还面临着保持长期一致性的挑战，因为它只能记住 16 帧的历史记录。

尽管面临这些挑战，但Genie的推出无疑是人工智能领域的一个重要里程碑。它展示了人工智能在理解和生成复杂动态环境方面的巨大潜力，并为未来的研究和应用提供了新的方向。随着科技的不断进步，我们有理由相信，Genie（精灵）及其后继者将在未来给人类带来更多惊喜。