当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Figure 推出 Helix模型:突破性视觉-语言-动作模型助力人形机器人控制

figure-helix-1.webp


         Figure 宣布推出 Helix,一款创新的“视觉-语言-动作”(VLA)模型,旨在通过自然语言直接控制人形机器人的整个上半身。该模型将感知、语言理解和动作控制相结合,克服了机器人技术领域的多项长期挑战,展现了强大的对象泛化能力和高效的任务执行能力。
         Helix 的核心优势在于其首创的“系统 1、系统 2”架构。系统 2(S2)是一个基于互联网预训练的视觉语言模型(VLM),以 7-9Hz 的频率运行,负责场景和语言理解,能够广泛泛化到不同对象和上下文。系统 1(S1)则是一种快速反应的视觉运动策略,将 S2 产生的语义表征转化为 200Hz 的精确连续机器人动作。这种解耦架构使得每个系统都能在其最佳时间尺度上运行:S2 负责高级目标规划,而 S1 则专注于实时动作执行和调整。
NEW_SCALING_LAWS.webp


         在实际应用中,Helix 展现了多项突破性能力。首先,它能够实现对人形机器人上半身(包括手腕、躯干、头部和手指)的高速率连续控制,这在行业内尚属首次。其次,Helix 通过自然语言提示,使机器人能够拿起几乎任何小型家居物品,包括数千种从未见过的新物品。此外,Helix 还支持多机器人协作,两个机器人可以使用同一套模型权重,通过自然语言指令完成复杂的协作任务,如共同存放杂货。
         Helix 的训练过程也极具创新性。它仅使用约 500 小时的高质量监督数据,远少于传统 VLA 数据集的规模,且无需多阶段训练或针对不同机器人的数据收集。通过端到端的训练,Helix 将原始像素和文本指令直接映射为连续动作,无需任务特定的微调。这种高效的训练方式使得 Helix 能够快速适应多样化的任务需求。
         在技术细节上,Helix 的架构简洁而高效。S2 基于一个 70 亿参数的开源 VLM,而 S1 则是一个 8000 万参数的基于 Transformer 的视觉运动策略。两者通过一个连续的潜在向量进行通信,实现了从高级语义到低级动作的无缝转换。此外,Helix 的推理过程经过优化,能够在低功耗嵌入式 GPU 上高效运行,满足商业部署的需求。
         Figure 的这一创新成果不仅展示了人形机器人在复杂环境中的适应能力,还为未来的机器人技术发展提供了新的思路。Helix 的出现标志着人形机器人在家庭环境中应用的可行性迈出了重要一步,其强大的泛化能力和高效的训练方式为未来机器人的大规模部署奠定了基础。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海