法国AI独角兽Mistral发布首款多模态模型Pixtral 12B

小哪吒

法国人工智能初创公司Mistral宣布了其首款多模态模型Pixtral 12B，标志着该公司正式进军图像处理领域。这款模型不仅能处理文本，还可以分析图像，展现出与Anthropic的Claude系列和OpenAI的GPT-4o类似的能力。

Pixtral 12B拥有120亿参数，模型大小约为24GB。它基于Mistral的文本模型Nemo 12B构建，可以回答与任意数量和大小图像相关的问题，支持URL或base64编码的图像输入。理论上，该模型应能完成图像描述和物体计数等任务。

目前，研究人员和开发者可以通过GitHub的种子链接或Hugging Face平台下载Pixtral 12B。不过，Mistral尚未明确该模型的具体许可条款。通常情况下，Mistral的标准开发许可要求商业应用付费，但允许免费用于研究和学术目的。

Mistral开发者关系主管Sophia Yang表示，Pixtral 12B将很快在公司的聊天机器人和API服务平台上供用户测试。然而，关于模型训练所使用的图像数据来源，Mistral尚未提供详细信息。

值得注意的是，Pixtral 12B的发布紧随Mistral完成由General Catalyst领投的6.45亿美元融资之后，该轮融资使公司估值达到60亿美元。成立仅一年多的Mistral被视为欧洲对抗OpenAI的希望，其战略包括发布免费的"开放"模型、提供付费的托管版本，以及为企业客户提供咨询服务。

Pixtral 12B的推出，不仅展示了Mistral在多模态AI领域的技术实力，也反映了该公司在与行业巨头竞争中的雄心。随着AI技术的快速发展，Mistral这样的新兴力量将为市场带来更多活力和创新。