Hugging Face 推出 8B 开源视觉语言模型 Idefics2

小哪吒

4月15日，Hugging Face发布开源大模型Idefics2，这是一种通用的多模态模型，它将任意文本和图像序列作为输入，并生成文本响应。它可以回答有关图像的问题、描述视觉内容、创建基于多个图像的故事、从文档中提取信息以及执行基本算术运算。https://huggingface.co/blog/idefics2

Idefics2 在Idefics1 的基础上进行了改进：凭借 8B 参数、开放许可证 (Apache 2.0) 和增强的 OCR（光学字符识别）功能，Idefics2 为致力于多模态的社区奠定了坚实的基础。它在视觉问答基准测试中的性能在同类规模中名列前茅，并且可以与LLava-Next-34B和MM1-30B-chat等更大的模型竞争。

Idefics2 从一开始就集成在Transformers 中，因此可以直接针对许多多模式应用程序进行微调。您现在就可以试用Hub 上的模型！

Idefics2 在用于预训练的公开可用数据集的混合上进行训练：交错网络文档（维基百科、OBELICS）、图像标题对（公共多模态数据集、LAION-COCO）、OCR 数据（PDFA (en)、IDL和渲染文本，和图像到代码数据 ( WebSight ))。

[行业动态] Hugging Face 推出 8B 开源视觉语言模型 Idefics2

相关帖子

硅谷大亨参与争吵：埃隆·马斯克 (Elon Musk) 与 OpenAI 之争

震撼发布！马斯克的xAI突破极限，3140亿参数巨兽Grok-1撼动AI界！

通义千问Qwen1.5-MoE开源

HuggingFace 发布 Parler-TTS：高质量、可控的文本转语音 (TTS) 开源模型

开源还是闭源？周鸿祎、王小川与李彦宏的PK揭示了AI发展的关键分歧

为什么Meta首席执行官马克·扎克伯格愿意开源价值100亿美元的Llama 3 大模型

Stability AI 推出开源音频大模型Stable Audio Open

腾讯混元推出轻量级开源模型 -A13B