马斯克的xAI发布多模态Grok-1.5V：多项基准测试超越GPT-4V、Claude 3、Gemini Pro

小哪吒

本帖最后由小哪吒于 4-13 12:21 编辑

4月12日，马斯克的人工智能公司xAI在官网宣布多模态大模型Grok-1.5V。https://x.ai/blog/grok-1.5v

在 xAI开源其 Grok AI后不到一个月，Grok-1.5V 就问世了。这是xAI的第一代多模态LLM。除了强大的文本功能之外，Grok 现在还可以处理各种视觉信息，包括文档、图表、屏幕截图和照片。 Grok-1.5V 很快会向早期测试者和现有 Grok 用户推出。

能力

在与同行 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 进行测试后，xAI 声称其多模态LLM脱颖而出。尤其令人自豪的是，Grok-1.5V 在 RealWorldQA 基准测试中优于竞争对手，这是它为评估现实世界空间理解而创建的新指标。

零样本评估Grok-1.5V

从绘画到睡前故事

解释图片

将表格转换为 csv

帮助处理甲板上的腐烂木头

解决编码问题

根据图表编写代码

计算卡路里

现实世界理解基准RealWorldQA

为了开发有用的现实世界人工智能助手，提高模型对物理世界的理解至关重要。为了实现这一目标，xAI引入了一个新的基准：RealWorldQA。该基准旨在评估多模态LLM的基本现实世界空间理解能力。虽然当前基准测试中的许多示例对于人类来说相对容易，但它们通常对前沿模型构成挑战。

RealWorldQA 的初始版本包含 700 多张图像，每张图像都有一个问题和易于验证的答案。除了其他真实世界的图像之外，该数据集还包含从车辆拍摄的匿名图像。未来xAI会随着多模态LLM的改进不断扩展该数据集。

走向未来

提高xAI的多模态理解和生成能力是构建能够理解宇宙的有益通用人工智能的重要步骤。在接下来的几个月中，xAI预计将在图像、音频和视频等各种模式上对这两种功能进行重大改进。

马斯克嘲讽OpenAI

马斯克在X（前推特）平台嘲讽：Grok 将超越 ClosedAI。（马斯克之前起诉OpenAI违反公司创立开源初衷，称OpenAI改为ClosedAI就撤诉）

[行业动态] 马斯克的xAI发布多模态Grok-1.5V：多项基准测试超越GPT-4V、Claude 3、Gemini Pro