当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Hugging Face 推出 8B 开源视觉语言模型 Idefics2

WX20240416-235915@2x.png

4月15日,Hugging Face发布开源大模型Idefics2,这是一种通用的多模态模型,它将任意文本和图像序列作为输入,并生成文本响应。它可以回答有关图像的问题、描述视觉内容、创建基于多个图像的故事、从文档中提取信息以及执行基本算术运算。https://huggingface.co/blog/idefics2

Idefics2 在Idefics1 的基础上进行了改进:凭借 8B 参数、开放许可证 (Apache 2.0) 和增强的 OCR(光学字符识别)功能,Idefics2 为致力于多模态的社区奠定了坚实的基础。它在视觉问答基准测试中的性能在同类规模中名列前茅,并且可以与LLava-Next-34B和MM1-30B-chat等更大的模型竞争。

Idefics2 从一开始就集成在Transformers 中,因此可以直接针对许多多模式应用程序进行微调。您现在就可以试用Hub 上的模型!

WX20240416-235835@2x.png


Idefics2 在用于预训练的公开可用数据集的混合上进行训练:交错网络文档(维基百科、OBELICS)、图像标题对(公共多模态数据集、LAION-COCO)、OCR 数据(PDFA (en)、IDL和渲染文本,和图像到代码数据 ( WebSight ))。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海