Idefics2 在Idefics1 的基础上进行了改进:凭借 8B 参数、开放许可证 (Apache 2.0) 和增强的 OCR(光学字符识别)功能,Idefics2 为致力于多模态的社区奠定了坚实的基础。它在视觉问答基准测试中的性能在同类规模中名列前茅,并且可以与LLava-Next-34B和MM1-30B-chat等更大的模型竞争。
Idefics2 从一开始就集成在Transformers 中,因此可以直接针对许多多模式应用程序进行微调。您现在就可以试用Hub 上的模型!
Idefics2 在用于预训练的公开可用数据集的混合上进行训练:交错网络文档(维基百科、OBELICS)、图像标题对(公共多模态数据集、LAION-COCO)、OCR 数据(PDFA (en)、IDL和渲染文本,和图像到代码数据 ( WebSight ))。
|