斯坦福、谷歌DeepMind、麻省理工等联合发布机器人开源AI模型OpenVLA

小哪吒

由斯坦福大学、加州大学伯克利分校、谷歌DeepMind、麻省理工学院等顶尖实验室的研究人员联合发布的OpenVLA，是一个创新的开源视觉语言动作人工智能模型，它能够根据文本或音频提示引导机器人执行任务。

长期以来，研究人员致力于探索如何利用视觉语言代理（VLA）提升机器人对世界的理解。OpenVLA的推出，克服了以往闭源模型的限制，为机器人研究和应用开辟了新天地。该模型不仅支持即插即用的多机器人控制，还能通过参数高效的微调快速适应新的机器人设置。

OpenVLA的开发基于对Prismatic-7B视觉条件AI语言模型的微调，该模型专为场景理解和机器人任务规划设计。结合视觉编码器，将视觉图像转化为AI可理解的嵌入，再与Meta Platforms Inc.的Llama 2 7B大型语言模型相结合，实现自然语言到机器人动作的转化。

为了训练这一模型，研究团队使用了OpenX数据集，该数据集包含超过970,000个机器人操作索引，覆盖了多样化的任务、场景和机器人类型。训练过程动用了64个Nvidia A100 GPU，历时15天完成。

斯坦福大学计算机科学博士生、联合首席研究员Moo Jin Kim表示：“OpenVLA是首个基于VLM的开源机器人基础模型，经过大规模真实世界数据训练。我们期望它成为机器人学习社区的宝贵资源，推动具身化AI研究的发展。”

市场上现有的闭源VLA，如RT-2和RT-2-X，也采用类似的构建模式，但OpenVLA在性能上显示出显著优势。在不同的测试设置中，OpenVLA的表现超越了参数量更大的RT-2-X。

作为开源模型，OpenVLA的代码已在GitHub上公开发布，模型检查点也可在HuggingFace上获取，为全球研究者和开发者提供了便利。这一举措预示着机器人操控技术的进一步民主化和创新加速。