2月26日,谷歌DeepMind刚刚推出了“Genie”,这是一种可以生成交互式视频游戏的人工智能大模型。可以将任何图像转换为简单的 2D 平台游戏。 Genie 是一个具有 110 亿个参数的基础世界模型,能够在无监督的情况下从无标签的互联网视频中学习,以生成交互式虚拟世界。这些世界可以通过文本、合成图像、照片甚至手绘草图来描述。Genie 的核心在于其潜在动作界面,它允许用户与生成的环境逐帧交互,而无需任何现实世界的动作标签或特定于领域的要求。
Genie在大量公开的互联网视频数据集上进行了没有任何动作标签的训练,可以将任何图像(无论是现实世界的照片、草图、人工智能生成的图像还是绘画)转换为简单的 2D 平台游戏。Genie团队指出,这种方法用途广泛,适用于各个领域。
它不仅可以用于游戏设计,让玩家创建和体验自己的游戏世界,还可以作为训练多面手智能体的基础世界模型。通过从互联网视频中学习潜在动作,Genie 可以生成强化学习 (RL) 环境的策略,这对于训练能够在不同环境中表现良好的智能代理至关重要。
然而,Genie 团队称还有很大改进的空间。例如,Genie 目前的运行速度约为每秒 1 帧,对于实时交互来说速率不够。此外,Genie 还面临着保持长期一致性的挑战,因为它只能记住 16 帧的历史记录。 尽管面临这些挑战,但Genie的推出无疑是人工智能领域的一个重要里程碑。它展示了人工智能在理解和生成复杂动态环境方面的巨大潜力,并为未来的研究和应用提供了新的方向。随着科技的不断进步,我们有理由相信,Genie(精灵)及其后继者将在未来给人类带来更多惊喜。
|