智元推出通用具身基座大模型Genie Operator-1(GO-1),引发业界关注。该模型基于Vision-Language-Latent-Action(ViLLA)架构构建,相较于传统的Vision-Language-Action(VLA)架构,其通过预测Latent Action Tokens(隐式动作标记),有效弥合了图像-文本输入与机器人执行动作间的差距,在真实世界灵巧操作和长时任务上表现卓越。
ViLLA架构由VLM(多模态大模型)与MoE(混合专家)组成。其中,VLM借助海量互联网图文数据,获得通用场景感知和语言理解能力;MoE中的Latent Planner(隐式规划器)和Action Expert(动作专家)则分别借助大量跨本体及人类操作数据、百万真机数据,获得通用动作理解与精细动作执行能力。在推理时,VLM、Latent Planner和Action Expert三者协同工作,先由VLM接收多模态信息进行感知和理解,再由Latent Planner预测动作标记进行规划,最后由Action Expert生成精细动作序列。
实验显示,GO-1在五种不同复杂度任务上测试成功率大幅领先,平均成功率提高32%。如在“倒水”“清理桌面”“补充饮料”等任务中表现突出,且增加Latent Planner可提升12%的成功率。
GO-1大模型具备人类视频学习、小样本快速泛化、一脑多形、持续进化等特点,可泛化应用到各类环境和物品中,支持部署到不同机器人本体,并能从实际执行数据中持续学习。它的推出,使具身智能向通用化、开放化、智能化方向快速迈进,让机器人从依赖特定任务的工具,向具备通用智能的自主体发展,在多领域发挥更大作用。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!