当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 马斯克的xAI发布多模态Grok-1.5V:多项基准测试超越GPT-4V、Claude 3、Gemini Pro

本帖最后由 小哪吒 于 4-13 12:21 编辑

WX20240413-112636@2x.png

4月12日,马斯克的人工智能公司xAI在官网宣布多模态大模型Grok-1.5V。https://x.ai/blog/grok-1.5v

在 xAI开源其 Grok AI后不到一个月,Grok-1.5V 就问世了。这是xAI的第一代多模态LLM。除了强大的文本功能之外,Grok 现在还可以处理各种视觉信息,包括文档、图表、屏幕截图和照片。 Grok-1.5V 很快会向早期测试者和现有 Grok 用户推出。

能力

在与同行 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 进行测试后,xAI 声称其多模态LLM脱颖而出。尤其令人自豪的是,Grok-1.5V 在 RealWorldQA 基准测试中优于竞争对手,这是它为评估现实世界空间理解而创建的新指标。


WX20240413-112900@2x.png


零样本评估Grok-1.5V

从绘画到睡前故事
WX20240413-120556@2x.png


解释图片
WX20240413-120646@2x.png


将表格转换为 csv
WX20240413-120757@2x.png


帮助处理甲板上的腐烂木头
WX20240413-120846@2x.png


解决编码问题
WX20240413-120919@2x.png


根据图表编写代码
WX20240413-121004@2x.png


计算卡路里
WX20240413-121046@2x.png

现实世界理解基准RealWorldQA
WX20240413-121239@2x.png
WX20240413-121223@2x.png

为了开发有用的现实世界人工智能助手,提高模型对物理世界的理解至关重要。为了实现这一目标,xAI引入了一个新的基准:RealWorldQA。该基准旨在评估多模态LLM的基本现实世界空间理解能力。虽然当前基准测试中的许多示例对于人类来说相对容易,但它们通常对前沿模型构成挑战。

RealWorldQA 的初始版本包含 700 多张图像,每张图像都有一个问题和易于验证的答案。除了其他真实世界的图像之外,该数据集还包含从车辆拍摄的匿名图像。未来xAI会随着多模态LLM的改进不断扩展该数据集。

走向未来

提高xAI的多模态理解和生成能力是构建能够理解宇宙的有益通用人工智能的重要步骤。在接下来的几个月中,xAI预计将在图像、音频和视频等各种模式上对这两种功能进行重大改进。

马斯克嘲讽OpenAI
WX20240413-113633@2x.png
马斯克在X(前推特)平台嘲讽:Grok 将超越 ClosedAI。(马斯克之前起诉OpenAI违反公司创立开源初衷,称OpenAI改为ClosedAI就撤诉)

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海