当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Day 1/5:MiniMax-M1,全球首个开源大规模混合架构的推理模型

2025 年 6 月 17 日,稀宇科技推出了 MiniMax - M1,这是一款全球首个开源的大规模混合架构推理模型。

1.webp


MiniMax - M1 在面向生产力的复杂场景中表现卓越,是开源模型中的佼佼者,其性能不仅超过国内闭源模型,还接近海外领先模型,同时具备业内最高性价比。该模型支持高达 100 万上下文输入,与谷歌 Gemini 2.5 Pro 比肩,是 DeepSeek R1 的 8 倍,还能实现业内最长的 8 万 Token 推理输出。这得益于其独创的闪电注意力机制混合架构,使其在处理长上下文输入和深度推理时高效性显著。例如,进行 8 万 Token 深度推理时,仅需使用 DeepSeek R1 约 30% 的算力。
2.webp


此外,稀宇科技还提出了更快的强化学习算法 CISPO,通过裁剪重要性采样权重提升强化学习效率,在 AIME 实验中,其收敛性能比字节提出的 DAPO 等算法快一倍,优于 DeepSeek 早期使用的 GRPO。


在技术创新的助力下,MiniMax - M1 的强化训练过程高效且成本可控。整个强化学习阶段仅用 512 块 H800 三周时间,租赁成本 53.74 万美金,远低于预期。
3.webp



在 17 个业内主流评测集中,MiniMax - M1 表现亮眼。其 M1 - 40k 和 M1 - 80k 在 SWE - bench 验证基准上分别取得 55.6% 和 56.0% 的成绩,虽略逊于 DeepSeek - R1 - 0528 的 57.6%,但远超其他开源模型。在长上下文理解任务中,M1 系列凭借百万级上下文窗口,全面超越开源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,全球排名第二,仅次于 Gemini 2.5 Pro。在代理工具使用场景(TAU - bench)中,MiniMax - M1 - 40k 领跑开源模型,并战胜 Gemini - 2.5 Pro。通常情况下,MiniMax - M1 - 80k 在多数基准测试中优于 M1 - 40k,证明了扩展测试时计算资源的有效性。


目前,MiniMax - M1 的技术报告和完整模型权重已在官方 Hugging Face 和 GitHub 账号开放。vLLM 和 Transformer 两个开源项目分别为其提供了推理部署支持,且正在与 SGLang 合作推进部署支持。基于高效的训练和推理算力使用,MiniMax APP 和 Web 实现不限量免费使用,并以业内最低价格在官网提供 API。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海