MiniMax-M1是MiniMax团队最新推出的开源推理模型,基于混合专家架构(MoE)与闪电注意力机制(lightning attention)相结合,总参数量达 4560 亿,每个token激活 459 亿参数。模型超过国内的闭源模型,接近海外的最领先模型,具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度,提供40 和80K两种推理预算版本,适合处理长输入和复杂推理任务。在基准测试中,MiniMax-M1在多个性能指标上超越DeepSeek等开源模型,在复杂软件工程、长上下文理解和工具使用等任务中表现出色。模型高效的计算能力和强大的推理能力使其成为下一代语言模型代理的强大基础。
MiniMax-M1的主要功能
- 长上下文处理:支持100万token的输入和8万toke 的输出,适合处理长文档和复杂推理任务。
- 高效推理:提供40K和80K两种推理预算版本,优化计算资源,降低推理成本。
- 多领域任务优化:在数学推理、软件工程、长上下文理解和工具使用等任务中表现出色,适应多样化应用场景。
- 功能调用:支持结构化功能调用,能识别、输出外部函数调用参数,便于与外部工具交互。
MiniMax-M1的项目地址
- 官方网站: https://www.minimax.io/
- GitHub仓库:https://github.com/MiniMax-AI/MiniMax-M1
- HuggingFace模型库:https://huggingface.co/collections/MiniMaxAI/minimax-m1
- 技术论文:https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report
我们推出了 MiniMax-M1,这是世界上第一个开放权重、大规模混合注意力推理模型。MiniMax-M1 由混合专家混合 (MoE) 架构和闪电注意力机制提供支持。该模型基于我们之前的MiniMax-Text-01 模型开发,该模型包含总共 4560 亿个参数,每个 token 激活 459 亿个参数。与 MiniMax-Text-01 一致,M1 模型原生支持 100 万个 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制可以高效扩展测试时计算 - 例如,与 DeepSeek R1 相比,M1 在 10 万个 token 的生成长度下消耗 25% 的 FLOP。这些特性使 M1 特别适合于需要处理长输入和广泛思考的复杂任务。 MiniMax-M1 使用大规模强化学习 (RL) 进行训练,其应用范围广泛,涵盖从传统数学推理到基于沙盒的真实软件工程环境等各种问题。我们为 M1 开发了一个高效的 RL 扩展框架,重点关注以下两个方面:(1) 我们提出了 CISPO,这是一种新颖的算法,它通过裁剪重要性采样权重而非标记更新来提升性能,其性能优于其他竞争性 RL 变体;(2) 我们的混合注意力机制设计能够自然地提升 RL 的效率,并利用混合架构来应对扩展 RL 时面临的独特挑战。我们分别训练了两个版本的 MiniMax-M1 模型,其思考预算分别为40K和 80K。在标准基准测试集上的实验表明,我们的模型优于其他强大的开放权重模型,例如原始的 DeepSeek-R1 和 Qwen3-235B,尤其是在复杂的软件工程、工具使用和长上下文任务方面。凭借对测试时计算能力的高效扩展,MiniMax-M1 为下一代语言模型智能体推理和应对真实世界挑战奠定了坚实的基础。
领先的商业模型和开放权重模型在竞赛级数学、编码、软件工程、代理工具使用和长上下文理解任务中的基准性能比较。此处我们使用 MiniMax-M1-80k 模型来表示 MiniMax-M1。
MiniMax-M1 在核心基准测试中的表现。
类别 | 任务 | MiniMax-M1-80K | MiniMax-M1-40K | Qwen3-235B-A22B | DeepSeek-R1-0528 | DeepSeek-R1 | Seed-Thinking-v1.5 | 克劳德4号作品 | 双子座 2.5 专业版 (06-05) | OpenAI-o3 |
---|---|---|---|---|---|---|---|---|---|---|
延伸思考 | 8万 | 4万 | 32千 | 64千 | 32千 | 32千 | 64千 | 64千 | 10万 | |
数学 | 2024年国际微电子展览会 | 86.0 | 83.3 | 85.7 | 91.4 | 79.8 | 86.7 | 76.0 | 92.0 | 91.6 |
2025年国际医疗设备展览会 | 76.9 | 74.6 | 81.5 | 87.5 | 70.0 | 74.0 | 75.5 | 88.0 | 88.9 | |
数学-500 | 96.8 | 96.0 | 96.2 | 98.0 | 97.3 | 96.7 | 98.2 | 98.8 | 98.1 | |
通用编码 | LiveCodeBench (8月24日至5月25日) | 65.0 | 62.3 | 65.9 | 73.1 | 55.9 | 67.5 | 56.6 | 77.1 | 75.8 |
全栈基准测试 | 68.3 | 67.6 | 62.9 | 69.4 | 70.1 | 69.9 | 70.3 | -- | 69.3 | |
推理与知识 | GPQA 钻石 | 70.0 | 69.2 | 71.1 | 81.0 | 71.5 | 77.3 | 79.6 | 86.4 | 83.3 |
HLE (无需工具) | 8.4* | 7.2* | 7.6* | 17.7* | 8.6* | 8.2 | 10.7 | 21.6 | 20.3 | |
斑马逻辑 | 86.8 | 80.1 | 80.3 | 95.1 | 78.7 | 84.4 | 95.1 | 91.6 | 95.8 | |
MMLU-Pro | 81.1 | 80.6 | 83.0 | 85.0 | 84.0 | 87.0 | 85.0 | 86.0 | 85.0 | |
软件工程 | 已通过 SWE-bench 验证 | 56.0 | 55.6 | 34.4 | 57.6 | 49.2 | 47.0 | 72.5 | 67.2 | 69.1 |
长上下文 | OpenAI-MRCR (128k) | 73.4 | 76.1 | 27.7 | 51.5 | 35.8 | 54.3 | 48.9 | 76.8 | 56.5 |
OpenAI-MRCR (1M) | 56.2 | 58.6 | -- | -- | -- | -- | -- | 58.8 | -- | |
LongBench-v2 | 61.5 | 61.0 | 50.1 | 52.1 | 58.3 | 52.5 | 55.6 | 65.0 | 58.8 | |
代理工具的使用 | TAU-工作台(航空公司) | 62.0 | 60.0 | 34.7 | 53.5 | -- | 44.0 | 59.6 | 50.0 | 52.0 |
TAU 工作台(零售) | 63.5 | 67.8 | 58.6 | 63.9 | -- | 55.7 | 81.4 | 67.0 | 73.9 | |
事实性 | 简单问答 | 18.5 | 17.9 | 11.0 | 27.8 | 30.1 | 12.9 | -- | 54.0 | 49.4 |
总助理 | 多重挑战 | 44.7 | 44.7 | 40.0 | 45.0 | 40.7 | 43.0 | 45.8 | 51.8 | 56.5 |
* 在纯文本 HLE 子集上进行。
我们的模型是用temperature=1.0
、来评估的top_p=0.95
。
我们报告了基于无代理框架的结果。与原始流程不同,我们的方法采用了两阶段定位流程(不包含任何基于嵌入的检索机制):首先进行粗粒度文件定位,然后进行针对特定文件和代码元素的细粒度定位。我们模型的值是根据在我们基础架构上运行的 n=486 个已验证任务子集计算得出的。排除的 14 个 与 "astropy__astropy-7606"
我们 内部 基础 架构 不 "astropy__astropy-8707"
兼容 的 测试用例 如下 : "astropy__astropy-8872"
"django__django-10097"
"matplotlib__matplotlib-20488"
"psf__requests-2317"
"psf__requests-2931"
"psf__requests-5414"
"pylint-dev__pylint-6528"
"pylint-dev__pylint-7277"
"sphinx-doc__sphinx-10435"
"sphinx-doc__sphinx-7985"
"sphinx-doc__sphinx-8269"
"sphinx-doc__sphinx-8475"
我们使用 GPT-4.1 作为用户模型,不使用任何自定义工具来评估 TAU-Bench。最大交互步骤数为 40。我们的通用系统提示如下:
- In each round, you need to carefully examine the tools provided to you to determine if any can be used.
- You must adhere to all of the policies. Pay attention to the details in the terms. Solutions for most situations can be found within these policies.