LMSYS Org平台 已将图像识别添加到 Chatbot Arena,以比较来自 OpenAI、Anthropic、Google 和其他 AI 供应商的视觉语言模型 (VLM)。在两周内,收集了 60 多种语言的 17,000 多个用户偏好。 GPT -4o和Claude 3.5 Sonnet在图像识别方面的表现明显优于Gemini 1.5 Pro和GPT-4 Turbo。虽然 Claude 3 Opus 在语言模型方面优于 Gemini 1.5 Flash,但两者在 VLM 方面的表现同样出色。开源模型 Llava-v1.6-34b 略优于 Claude-3-Haiku。收集的数据展示了常见的应用,例如图像描述、数学问题、文档理解、模因解释和故事写作。
|