阿里推出最新视觉模型Qwen2-VL：实时画面理解和逻辑推理

小哪吒

阿里宣布推出其最新视觉语言模型——Qwen2-VL，标志着在实时画面理解和逻辑推理方面迈出了重要一步。经过近一年的精心研发，Qwen2-VL在多个视觉理解基准测试中取得了全球领先成绩，其特点如下：

多分辨率和长宽比图像理解：Qwen2-VL能够读懂不同分辨率和长宽比的图片，在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中表现卓越。
长视频理解：该模型能够理解20分钟以上的长视频，适用于视频问答、对话和内容创作等应用。
视觉智能体操作：Qwen2-VL具备复杂推理和决策能力，可集成至手机、机器人等设备，执行视觉环境和文字指令下的自动操作。
多语言支持：除英语和中文外，Qwen2-VL新增对图像中多语言文本的理解，覆盖大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

阿里以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B，并发布了Qwen2-VL-72B的API。开源代码已集成至Hugging Face Transformers、vLLM等第三方框架，旨在提供便捷的开发体验。

模型性能：

Qwen2-VL在六个方面进行了视觉能力评估，包括大学题目、数学能力、文档表格多语言文字图像理解、通用场景问答、视频理解和Agent能力。72B规模的模型在多数指标上达到最优，超过GPT-4o和Claude3.5-Sonnet等闭源模型，尤其在文档理解方面表现突出。7B规模的模型支持图像、多图、视频输入，在经济规模上实现有竞争力的性能，特别是在文档理解和多语言文字理解方面处于SOTA水平。2B规模的模型则支持移动端应用，具备完整的图像视频多语言理解能力。

模型能力案例：

Qwen2-VL展示了其在细节识别理解、视觉推理解决现实问题、视频理解和实时聊天等方面的能力。例如，它不仅能识别植物和地标，还能理解场景中多个对象间的关系，增强了对图像中多种语言的识别能力。

模型架构：

Qwen2-VL延续了ViT加Qwen2的串联结构，采用600M规模的ViT支持图像和视频统一输入。模型实现了对原生动态分辨率的全面支持，以及多模态旋转位置嵌入（M-ROPE），提升了视觉信息感知和视频理解能力。

使用Qwen2-VL：

用户可以通过官方API体验Qwen2-VL-72B模型，或在Hugging Face和ModelScope上找到开源的2B和7B模型。阿里还提供了处理不同类型视觉输入的工具，支持base64、URL、图文与视频等。