当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 法国AI独角兽Mixtral发布两款开源大模型:Codestral Mamba 7B和Mathstral 7B

Codestral Mamba是我们在推出Mixtral系列之后的又一新架构,旨在为架构研究提供新视角。这一模型由Albert Gu和Tri Dao协助设计,现已免费提供使用、修改和分发。

与Transformer模型相比,Codestral Mamba具有线性时间推理的优势,理论上能够处理无限长度的序列。这种效率对于代码生产力尤其关键,因此我们特别训练了这一模型,使其在高级代码和推理功能上与基于最新Transformer的模型相媲美。Mamba模型的快速响应和广泛互动能力不受输入长度限制,使其成为理想的本地代码助手。
Screenshot-2024-07-16-at-2.58.53 PM.webp

我们已对Codestral Mamba的上下文检索功能进行了基准测试,测试范围高达256k个令牌。用户可以通过mistral-inference SDK部署Codestral Mamba,该SDK依赖于Mamba的GitHub存储库中的参考实现。此外,该模型也可以通过TensorRT-LLM进行部署。对于本地推理,请关注llama.cpp中的支持。用户还可以从HuggingFace下载原始权重,这是一个具有7,285,403,648个参数的指导模型。

为了方便测试,我们在La Plateforme上提供了Codestral Mamba codestral-mamba-2407,与其姊妹版本Codestral 22B一同提供。Codestral Mamba可在Apache 2.0许可下使用,而Codestral 22B则提供商业许可(用于自行部署)或社区许可(用于测试目的)。

此外,我们向科学界贡献了Mathstral,以支持解决需要复杂、多步骤逻辑推理的高级数学问题。Mathstral的发布是我们支持学术项目的广泛努力的一部分,它是在我们与Project Numina合作的背景下制作的。Mathstral基于Mistral 7B,专注于STEM学科,并在各种行业标准基准中展现了其规模类别中的顶尖推理能力。特别值得一提的是,它在MATH基准测试中取得了56.6%的成绩,在MMLU基准测试中取得了63.47%的成绩。
mathstral-benchmarks.webp

Mathstral 7B在按科目细分的MMLU表现上展现了出色的性能。它是构建特定用途模型时实现的卓越性能/速度平衡的典范。Mathstral 7B的详细基准测试显示,通过更多的推理时间,它在MATH上可以获得更高的分数,64名候选人中以多数投票获得68.37%的分数,强奖励模型则获得74.59%的分数。

Mathstral是一个指导模型,用户可以参考我们的文档使用或对其进行微调。其权重托管在HuggingFace上,用户现在可以使用mistral-inference尝试Mathstral,并使用mistral-finetune进行调整。我们感谢Paul Bourdon教授为我们评估中使用的GRE数学科目考试问题提供参考。


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海