在人工智能模型竞相以参数规模和复杂架构争夺霸主地位的时代,MiniMax-AI悄然推出了一款名为MiniMax-M1的模型,它以强大而内敛的方式重新定义了AI的可能性。尽管它可能尚未获得与某些商业巨头同等的“注意力”,但其在架构核心“注意力”机制上的创新方法,为开放权重推理模型树立了效率和能力的新标准。

“注意力”机制的革命:MiniMax-M1的核心架构

任何大型语言模型(LLM)的核心都是“注意力”机制,它允许模型在处理信息时权衡不同输入部分的重要性。传统的Transformer架构是许多现代LLM的基础,通常依赖于softmax 注意力机制。虽然效果非常好,但这种机制存在一个重大缺陷:其计算复杂度与输入序列的长度呈二次方关系。这意味着随着模型尝试处理更长的文本或进行更广泛的推理,计算成本会急剧上升,从而对可扩展性和效率构成巨大障碍。例如,如果一个模型处理1000个token的序列需要1秒,那么处理2000个token的序列理论上需要4秒。MiniMax-M1模型巧妙地解决了这一难题。

MiniMax-M1大胆地正面应对这一挑战,将混合专家模型(MoE)架构与开创性的Lightning 注意力机制相结合。这不仅仅是一个小小的调整,而是一项为最大效率和性能而设计的根本性重新设计,尤其是在需要长上下文理解和广泛推理的情况下。

混合专家模型(MoE)架构是MiniMax-M1的支柱,这种复杂的设计中,只有在需要时才会激活专门的“专家”微型模型。该模型拥有高达4560亿的总参数,但通过其32个专家,每个token仅激活更易于管理的459亿个参数。这种选择性激活显著提高了其效率。例如,在处理特定领域的文本时,只有相关的专家会被激活,避免了不必要的计算,从而节省资源并提高速度。

与此互补的是,Lightning 注意力机制作为线性注意力变体的I/O感知实现而脱颖而出。与传统的softmax 注意力不同,Lightning 注意力以更高效的块状方式计算注意力,有效地将计算分为块内(传统注意力)和块间(使用核技巧的线性注意力)组件,从而避免了抑制速度的累积求和运算。这种设计,以及优化GPU硬件利用率的平铺技术,使内存使用更加高效,并且训练速度保持稳定,而与序列长度无关。MiniMax-M1通过混合设计来实现这一创新,其中具有传统softmax 注意力的transformer块跟随每七个“Transnormer”块(包含Lightning 注意力的块)。这种巧妙的架构选择使模型能够原生支持惊人的100万token的上下文长度。为了更好地理解这一点,这相当于DeepSeek R1的上下文大小的8倍,并且比目前所有其他开放权重大型推理模型(LRM)大一个数量级。效率提升同样令人印象深刻:在生成10万个token时,MiniMax-M1仅消耗DeepSeek R1的25%的FLOPs(浮点运算),在6.4万个token时消耗不到50%。这种计算成本的显著降低使MiniMax-M1对于推理和大规模强化学习(RL)训练都非常有效。

释放扩展推理:测试时计算的力量

大型推理模型(LRM)的出现突出了一个关键的新扩展维度:测试时计算。在生成过程中,用于扩展推理过程的计算能力越多,模型性能就越一致地提高,尤其是在复杂的现实世界应用中。MiniMax-M1是专门为此维度而构建的。它处理大量输入并进行长时间“思考”过程的能力使其特别适合于需要深入、多步骤推理的任务。比如,在处理一个复杂的法律案件时,模型可以分析大量的法律条文、案例和证词,并进行深入的推理,最终得出结论。

为了促进各种应用并展示扩展测试时计算的优势,MiniMax-AI发布了两个版本的MiniMax-M1模型:一个具有4万思考预算,另一个具有8万思考预算,指的是它们的最大生成长度。4万模型代表了8万模型的训练中间阶段。经验证据清楚地表明,MiniMax-M1–80k模型在复杂的数学和编码任务上优于其4万模型,直接验证了将更多计算资源用于扩展推理的优势。

秘诀:强化学习与CISPO算法

MiniMax-M1的卓越性能不仅仅是其新颖架构的结果,也得益于所采用的复杂训练方法。该模型的历程始于在其前身MiniMax-Text-01上持续预训练,从精心策划的、推理密集型语料库中额外获取7.5万亿个token。这一基础步骤显著增强了其内在推理和长上下文能力。在此之后,进行了监督微调(SFT)以注入特定的思维链(CoT)模式,为关键的后续阶段奠定了坚实的基础:大规模强化学习(RL)。RL是M1开发的核心阶段,使其能够从复杂的问题解决场景中学习。

然而,使用这种混合架构扩展RL带来了独特的挑战。MiniMax-AI团队率先提出了解决这些难题的方案,并提出了一种突破性的新RL算法以进一步提高效率。

CISPO:RL算法的颠覆者

最重要的一项算法创新是CISPO(Clipped IS-weight Policy Optimization)。传统的RL算法,如PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization),通常采用“剪裁操作”来稳定训练。虽然通常有效,但MiniMax-AI团队观察到,这种剪裁机制不利于其混合架构中的训练性能,特别是在阻碍长思维链(CoT)推理的出现方面。

罪魁祸首被确定为不希望的“反思行为”token(例如,“但是”、“重新检查”、“等待”、“啊哈”)的剪裁。这些token通常很稀有,并且由基本模型分配了较低的概率,但通常表现出较高的重要性采样(IS)权重。因此,它们在第一次on-policy更新后被剪裁掉,从而阻止了它们对后续off-policy梯度更新的贡献。在混合架构模型中,这个问题更加严重,严重阻碍了RL的可扩展性。即使像DAPO这样的其他方法试图通过增加剪裁界限来缓解这个问题,但对于MiniMax-M1的密集型off-policy更新来说仍然不足。

CISPO通过放弃信任区域约束并改为剪裁重要性采样权重而不是token更新来直接解决这个问题。这种新颖的方法确保了来自所有token的梯度贡献都得到保留,即使是那些与大型更新相关的token,这对于长响应尤其重要。它还固有地将熵维持在合理的范围内,从而确保了稳定的探索。例如,传统算法可能会因为“但是”这样的转折词出现频率低而将其剪裁掉,导致模型无法充分利用这些词语进行深入的推理。而CISPO算法可以保留这些关键词的梯度贡献,使模型更好地学习如何使用它们。

CISPO的经验验证令人信服:在一项使用Qwen2.5–32B模型在数学推理数据集上的对照研究中,CISPO与DAPO相比实现了显著的2倍加速,仅用一半的训练步骤就达到了DAPO的性能。这种效率优势,加上混合注意力设计,使得MiniMax-M1的完整RL训练能够在短短三周内使用512个H800 GPU完成,租赁成本仅为534,700美元(约合380万元人民币),效率惊人。

克服RL障碍:技术创新

虽然Lightning 注意力为RL扩展提供了固有的效率优势,但使用这种架构进行大规模RL实验的开创性性质带来了独特的技术挑战。MiniMax-AI团队设计了有针对性的解决方案以确保训练的稳定性和有效性:

  • 生成和训练中的计算精度不匹配: 在训练模式和推理模式之间,rollout token的概率存在显著差异。这种精度不匹配源于输出层LM head处的高幅度激活,这对奖励增长不利。解决方案是将LM输出head的精度提高到FP32,成功地重新对齐了这些概率,并将其相关性从大约0.9x提高到0.99x。这项关键修复确保了整个训练过程中有效奖励增加所需的稳定性。
  • 优化器超参数敏感性: 用于MiniMax-M1训练的AdamW优化器对其配置(𝛽1、𝛽2和𝜖)高度敏感,默认设置通常导致不收敛。分析显示梯度幅度范围很广(从1e-18到1e-5),并且相邻迭代的梯度之间相关性很弱。基于这些观察结果,团队将参数微调至𝛽1 = 0.9,𝛽2 = 0.95和eps = 1e-15,从而确保了稳定的优化。
  • 通过重复检测进行早期截断: 在RL训练期间,复杂的提示有时会诱发病态的冗长和重复响应,从而产生威胁模型稳定性的较大梯度。目标不是简单地惩罚这些,而是先发制人地终止此类循环。开发了一种基于token概率的启发式方法:如果连续3,000个token的概率均高于0.99,则立即停止生成。这种方法有效地防止了模型不稳定,并通过修剪这些“长尾”病态情况来提高生成吞吐量。

数据多样性与训练课程:实现强大的推理能力

MiniMax-M1的成功也源于为其RL训练精心策划的一组极其多样化的问题和环境。这些包括对于推理学习至关重要的可验证任务,以及使用精心设计的课程集成到RL阶段的一般领域任务。

  • 具有基于规则验证的推理密集型任务: 对于可以确定性地验证正确性的任务,MiniMax-M1的训练纳入了一系列具有挑战性的领域:
    • 数学推理: 来自公共来源和官方竞赛的数十万个高质量的竞赛级别问题。严格的数据清理、基于嵌入的重复数据删除、与SFT数据的严格分离以及基于模型通过率的过滤确保了用于RL训练的高质量、未受污染的数据集。
    • 逻辑推理: 利用SynLogic框架,合成了跨越41个不同逻辑推理任务(如密码和数独)的53,000个样本。难度参数经过精心配置,以确保平衡的学习挑战,并且难度随着模型能力的提高而增加。
    • 竞技编程: 从公开可用的在线评委平台和编码网站生成了30,000个竞技编程数据样本。开发了一种基于LLM的工作流程,以为缺少它们的难题创建全面的测试套件。
    • 软件工程: 受SWE-bench的启发,利用真实世界的GitHub问题(错误定位、代码修复、测试用例合成)来构建可验证的RL环境。一个复杂的容器化沙盒环境允许实际执行代码,从而提供直接、可验证的反馈(测试用例的通过/失败状态)作为主要奖励信号。这种基于执行的奖励信号对于学习强大的软件工程能力至关重要。
  • 具有基于模型反馈的一般领域任务: 对于不易通过规则验证的任务,MiniMax-M1利用高级奖励模型来提供反馈:
    • 具有Ground Truth的任务(但难以通过规则验证): 此类别包括具有客观答案的STEM和事实性问题,这些答案可能具有多种有效表达。生成奖励模型(GenRM)用作验证器,针对具有五等级奖励规模的人工注释基准进行评估。
    • 没有Ground Truth的任务: 涵盖指令遵循和创造性写作,这些任务涉及与各种内部和外部模型生成的参考答案进行成对比较。至关重要的是,对于具有约束的指令遵循任务,同时使用了基于规则的奖励(用于满足约束)和基于模型的奖励(用于质量)。

解决生成奖励模型中的长度偏差

GenRM的一个重大挑战是它们倾向于偏爱更长的输出,而与实际的推理质量无关,从而导致“奖励黑客”。MiniMax-AI在RL训练期间实现了对长度偏差的持续在线监控。在检测到有害的寻求长度的行为时,会立即触发GenRM重新校准。这种自适应方法与RL端技术(如奖励塑造、价值剪裁和标准化)相结合,确保策略优化优先考虑实质质量和正确性,而不是肤浅的冗长。

课程和动态加权

鉴于RL数据的范围广泛,因此采用了精心管理的课程和动态加权策略。训练首先专门针对具有基于规则奖励的推理密集型任务(例如,数学和代码),然后逐渐混合到一般领域任务中。这种混合RL训练鼓励模型对可验证的问题应用严格的演绎,对一般查询应用更灵活的生成,从而防止灾难性地忘记专业技能,同时促进更广泛的泛化。

扩展到更长的思考:40K到80K输出

凭借其混合架构固有的近线性扩展能力,MiniMax-AI在RL训练期间将生成长度从4万个token扩展到8万个token,最终形成了MiniMax-M1–80k模型。这不仅仅是增加一个设置的问题;它涉及一种复杂的多阶段策略。

为了有效地训练8万个输出长度,先前训练的4万模型指导了数据过滤,优先考虑更具挑战性的示例。由于观察到合成推理数据倾向于通过生成重复和同质的输出来破坏长上下文RL训练的稳定性,因此对合成推理数据进行了降采样。输出长度通过分阶段的窗口扩展RL策略逐渐增加:从4万开始,逐步扩展到4.8万、5.6万、6.4万、7.2万,最终达到8万。每次过渡到后续长度都是通过经验指标(例如,生成序列的困惑度收敛和接近当前上下文窗口限制的输出长度的第99个百分位数)仔细确定的,从而确保了整个过程中的可靠训练。

在扩展过程中,出现了一个关键问题:模式崩溃,其中生成的序列的后半部分退化为不连贯或混乱的文本,同时困惑度增加。这被认为是负样本的长度比正样本增长快得多的结果,导致不成比例的大量负梯度累积在生成的序列的后半部分。为了消除这种不平衡并稳定生成,实施了三个关键解决方案:

  • 重复检测和提前停止: 检测重复模式(连续的高概率token)可以防止病态响应过度消耗上下文窗口。
  • 组合样本级损失和token级标准化: 这缓解了负正样本不平衡并减轻了不利影响。
  • 降低梯度剪裁阈值和𝜖𝐼𝑆ℎ𝑖𝑔ℎ: 通过降低这些参数可以进一步稳定生成。

基准测试性能:新的开放权重冠军?

MiniMax-M1在各个领域进行了全面评估,将其性能与领先的商业(闭源)模型(如OpenAI o3、Gemini 2.5 Pro和Claude 4 Opus)以及其他强大的开放权重模型(如DeepSeek-R1和Qwen3–235B)进行了比较。评估使用标准采样参数(温度1.0,top-p 0.95)。

  • 数学与通用编码: MiniMax-M1模型表现出强大的性能。在AIME 2024上,MiniMax-M1–80k取得了86.0%的成绩,在开放权重模型中排名第二,仅略低于最新的DeepSeek-R1–0528。对于通用编码,MiniMax-M1–80k在LiveCodeBench上与Qwen3–235B相匹配,并在FullStackBench上超过了它。
  • 推理与知识/事实性/通用助手: 虽然在某些推理和知识基准测试中经常落后于DeepSeek-R1–0528,但MiniMax-M1–80k仍然与其他顶级开放权重模型具有很强的竞争力。在事实性(SimpleQA)方面,MiniMax-M1模型优于Seed-Thinking-v1.5以及除DeepSeek-R1以外的所有其他开放权重模型。对于通用助手功能(MultiChallenge),两个MiniMax模型的性能与DeepSeek-R1–0528和Claude 4 Opus相当。
  • 在复杂场景中的优势:软件工程、长上下文和工具使用: 这是MiniMax-M1真正闪耀的地方,展示了其独特架构和训练策略的直接优势:
    • 软件工程: 得益于其基于执行的RL训练环境,MiniMax-M1–40k和MiniMax-M1–80k在SWE-bench Verified上分别取得了55.6%和56.0%的强大分数。这些结果大大超过了其他开放权重模型,并且仅略低于DeepSeek-R1–0528。
    • 长上下文理解: 凭借其无与伦比的100万token上下文窗口,M1模型显著优于所有其他开放权重模型。它们甚至超过了OpenAI o3和Claude 4 Opus等闭源巨头,在长上下文理解基准测试中排名全球第二(仅以微弱优势落后于Gemini 2.5 Pro)。
    • Agentic工具使用: 在agentic工具使用场景(TAU-bench)中,MiniMax-M1–40k超过了所有开放权重模型,甚至超过了Gemini-2.5 Pro。至关重要的是,MiniMax-M1–80k在大多数基准测试中始终优于MiniMax-M1–40k,为扩展测试时计算的优势提供了令人信服的证据。

训练过程中的一个令人着迷的见解是准确性提升与响应长度增加之间的直接相关性。随着MiniMax-M1接受RL训练,尤其是在AIME和LiveCodeBench上,平均响应长度飙升至2万个token以上,并且准确性显示出显着提高。这有力地表明,该模型确实正在学习使用更长、更详细的思维链,并且这种扩展推理直接转化为更高的性能。

超越基准:现实世界应用和可访问性

MiniMax-M1的影响远远超出了学术基准。它在软件工程、工具利用和长上下文任务中的优势使其特别适合于复杂的现实世界挑战。想象一下需要AI代理处理大量信息、分析复杂的代码库或使用外部工具进行多轮、高风险推理的场景 – MiniMax-M1正是为这些需求而构建的。

事实上,MiniMax-M1已经展示了其在引人注目的演示中的实力。用户已经利用其功能自主构建完整的Netflix克隆,其中包含可播放的预告片,并一键部署可运行的网站。其他令人印象深刻的壮举包括为复杂数据创建交互式仪表板、生成详细的旅行行程、构建可玩的基于Web的迷宫游戏、虚拟钢琴键盘,甚至是一个交互式Pokédex,其中包含艺术品和动画。这些现实世界的应用程序突显了其在内容生成、数据抓取和自主部署方面的能力。该模型甚至可以通过浏览地图和研究网络来分析照片的确切拍摄位置。这展示了MiniMax-M1作为一种功能强大的自主AI代理的潜力。

至关重要的是,MiniMax-AI致力于促进该领域的协作和进步。MiniMax-M1是一个开放权重模型,这意味着公众可以访问其全部功能和底层机制。模型权重可在GitHub和Hugging Face上公开获得,并提供了vLLM(由于其卓越的性能特性(如智能内存管理和批处理),建议用于生产部署)和Transformers框架的详细部署指南。

除了原始模型文件外,MiniMax-M1还支持函数调用功能,允许它识别何时需要外部函数并输出用于执行的结构化参数。MiniMax-AI还提供了一个具有在线搜索功能的公共聊天机器人,以及MiniMax MCP服务器,该服务器为开发人员提供视频生成、图像生成、语音合成和语音克隆等高级功能。MiniMax-M1的发布仅仅是一个开始,它在“MiniMaxWeek”活动期间宣布为一系列发布中的第一个,更多内容(如Hailuo 02视频模型)已经在掀起波澜。

结论

MiniMax-M1代表了开放权重大型推理模型领域的一大飞跃。其创新的混合专家模型架构,由高效的Lightning 注意力机制提供支持,有效地解决了二次复杂度挑战,从而实现了前所未有的100万token的上下文长度和测试时计算的高效扩展。这种架构实力,加上克服传统剪裁限制并加速训练的新型CISPO RL算法,将MiniMax-M1定位为真正的强大引擎。

从其在软件工程、长上下文理解和agentic工具使用方面的卓越性能(通常超过已建立的闭源模型)到其自主创建复杂应用程序的已证实能力,MiniMax-M1不仅仅是一个大型语言模型。它是下一代语言模型代理的坚实基础,这些代理已准备好通过在广泛的上下文中进行推理并与各种环境和工具无缝交互来应对现实世界的挑战。MiniMax-M1已经到来,它要求你关注,不仅是因为它的能力,还因为它巧妙地重新定义了“注意力”机制本身。