DeepMind 机器人团队本周展示了其在机器人导航领域的最新进展。在一篇论文中,团队详细阐述了如何利用 Google Gemini 1.5 Pro 机器人响应指令,并在办公室内进行导航。
DeepMind 运用了 Every Day Robots 项目的一部分技术,该项目自去年谷歌大规模裁员后暂停。在一系列演示视频中,DeepMind 的员工通过智能助手风格的命令,引导机器人在 9,000 平方英尺的办公空间内完成各种任务。 例如,一位员工请求机器人带他去画画的地方。机器人回答后,迅速将员工带至一块大型白板前。在另一个视频中,机器人根据白板上的指示,成功导航至“蓝色区域”。 在制作这些视频之前,团队通过“多模式指导导航和演示游览 (MINT)”技术,让机器人熟悉办公空间,并用语音标注不同的地标。随后,通过分层视觉-语言-动作 (VLA) 技术,结合环境理解和常识推理,使机器人能够响应书面、绘制的命令和手势。
谷歌表示,在与员工的 50 多次互动中,机器人的成功率约为 90%。
|