阿里宣布推出其最新视觉语言模型——Qwen2-VL,标志着在实时画面理解和逻辑推理方面迈出了重要一步。经过近一年的精心研发,Qwen2-VL在多个视觉理解基准测试中取得了全球领先成绩,其特点如下:
多分辨率和长宽比图像理解:Qwen2-VL能够读懂不同分辨率和长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中表现卓越。 长视频理解:该模型能够理解20分钟以上的长视频,适用于视频问答、对话和内容创作等应用。 视觉智能体操作:Qwen2-VL具备复杂推理和决策能力,可集成至手机、机器人等设备,执行视觉环境和文字指令下的自动操作。 多语言支持:除英语和中文外,Qwen2-VL新增对图像中多语言文本的理解,覆盖大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
阿里以Apache 2.0协议开源了Qwen2-VL-2B和Qwen2-VL-7B,并发布了Qwen2-VL-72B的API。开源代码已集成至Hugging Face Transformers、vLLM等第三方框架,旨在提供便捷的开发体验。
模型性能:
Qwen2-VL在六个方面进行了视觉能力评估,包括大学题目、数学能力、文档表格多语言文字图像理解、通用场景问答、视频理解和Agent能力。72B规模的模型在多数指标上达到最优,超过GPT-4o和Claude3.5-Sonnet等闭源模型,尤其在文档理解方面表现突出。7B规模的模型支持图像、多图、视频输入,在经济规模上实现有竞争力的性能,特别是在文档理解和多语言文字理解方面处于SOTA水平。2B规模的模型则支持移动端应用,具备完整的图像视频多语言理解能力。
模型能力案例:
Qwen2-VL展示了其在细节识别理解、视觉推理解决现实问题、视频理解和实时聊天等方面的能力。例如,它不仅能识别植物和地标,还能理解场景中多个对象间的关系,增强了对图像中多种语言的识别能力。
模型架构:
Qwen2-VL延续了ViT加Qwen2的串联结构,采用600M规模的ViT支持图像和视频统一输入。模型实现了对原生动态分辨率的全面支持,以及多模态旋转位置嵌入(M-ROPE),提升了视觉信息感知和视频理解能力。
使用Qwen2-VL:
用户可以通过官方API体验Qwen2-VL-72B模型,或在Hugging Face和ModelScope上找到开源的2B和7B模型。阿里还提供了处理不同类型视觉输入的工具,支持base64、URL、图文与视频等。
|