当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 斯坦福、谷歌DeepMind、麻省理工等联合发布机器人开源AI模型OpenVLA

由斯坦福大学、加州大学伯克利分校、谷歌DeepMind、麻省理工学院等顶尖实验室的研究人员联合发布的OpenVLA,是一个创新的开源视觉语言动作人工智能模型,它能够根据文本或音频提示引导机器人执行任务。
openvla-model-arm-carrot.png

长期以来,研究人员致力于探索如何利用视觉语言代理(VLA)提升机器人对世界的理解。OpenVLA的推出,克服了以往闭源模型的限制,为机器人研究和应用开辟了新天地。该模型不仅支持即插即用的多机器人控制,还能通过参数高效的微调快速适应新的机器人设置。

OpenVLA的开发基于对Prismatic-7B视觉条件AI语言模型的微调,该模型专为场景理解和机器人任务规划设计。结合视觉编码器,将视觉图像转化为AI可理解的嵌入,再与Meta Platforms Inc.的Llama 2 7B大型语言模型相结合,实现自然语言到机器人动作的转化。
openvla_model.jpg

为了训练这一模型,研究团队使用了OpenX数据集,该数据集包含超过970,000个机器人操作索引,覆盖了多样化的任务、场景和机器人类型。训练过程动用了64个Nvidia A100 GPU,历时15天完成。

斯坦福大学计算机科学博士生、联合首席研究员Moo Jin Kim表示:“OpenVLA是首个基于VLM的开源机器人基础模型,经过大规模真实世界数据训练。我们期望它成为机器人学习社区的宝贵资源,推动具身化AI研究的发展。”

市场上现有的闭源VLA,如RT-2和RT-2-X,也采用类似的构建模式,但OpenVLA在性能上显示出显著优势。在不同的测试设置中,OpenVLA的表现超越了参数量更大的RT-2-X。

作为开源模型,OpenVLA的代码已在GitHub上公开发布,模型检查点也可在HuggingFace上获取,为全球研究者和开发者提供了便利。这一举措预示着机器人操控技术的进一步民主化和创新加速。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海