法国人工智能初创公司Mistral宣布了其首款多模态模型Pixtral 12B,标志着该公司正式进军图像处理领域。这款模型不仅能处理文本,还可以分析图像,展现出与Anthropic的Claude系列和OpenAI的GPT-4o类似的能力。
Pixtral 12B拥有120亿参数,模型大小约为24GB。它基于Mistral的文本模型Nemo 12B构建,可以回答与任意数量和大小图像相关的问题,支持URL或base64编码的图像输入。理论上,该模型应能完成图像描述和物体计数等任务。
目前,研究人员和开发者可以通过GitHub的种子链接或Hugging Face平台下载Pixtral 12B。不过,Mistral尚未明确该模型的具体许可条款。通常情况下,Mistral的标准开发许可要求商业应用付费,但允许免费用于研究和学术目的。
Mistral开发者关系主管Sophia Yang表示,Pixtral 12B将很快在公司的聊天机器人和API服务平台上供用户测试。然而,关于模型训练所使用的图像数据来源,Mistral尚未提供详细信息。
值得注意的是,Pixtral 12B的发布紧随Mistral完成由General Catalyst领投的6.45亿美元融资之后,该轮融资使公司估值达到60亿美元。成立仅一年多的Mistral被视为欧洲对抗OpenAI的希望,其战略包括发布免费的"开放"模型、提供付费的托管版本,以及为企业客户提供咨询服务。
Pixtral 12B的推出,不仅展示了Mistral在多模态AI领域的技术实力,也反映了该公司在与行业巨头竞争中的雄心。随着AI技术的快速发展,Mistral这样的新兴力量将为市场带来更多活力和创新。
|