lol外围投注考试加快40倍、冲破“不行能三角”: MiniMax Agent RL 架构解密

发布日期：2026-02-17 12:23 点击次数：157

转载自：minimax稀宇科技

跟着minimaxm2.5的发布并在社区激励激烈反响，很情愿能借此契机，分享在模子考试背后对于agentrl系统的一些念念考。

在大限制、复杂的真实寰球场景中跑rl时，恒久面对一个中枢纳闷：如安在系统微辞量、考试知道性与agent天真性这三者之间取得均衡。为了处理这个问题，咱们设想了一个异步的原生agentrl系统——forge。在forge中，咱们通过达成圭臬化的agent-llm交互左券，支柱了对狂放agent脚手架进行考试，况兼通过极致的工程优化和知道的算法与奖励设想，达成了超大限制的强化学习。

在面对数十万个真实的agent脚手架和环境以及200k的波折文长度时，咱们的rl系统作念到了每天百万级样本量的微辞，并达成执续知道的reward高涨和真实的模子智商普及，并最终栽培了minimaxm2.5模子的性能突破。

问题建模

在真切酌量架构设想之前，咱们当先将agent强化学习系统的优化标的步地化为“最大化灵验考试收益（j）”：

其中，throughput是指每秒处理的原始token数目，其主要受rl系统中的四部分王法：rollout、training、dataprocessing和i/o。sampleefficiency则是指每个样本带来的平均性能普及，由数据分散、数据质料、算法间隔以及offpolicy进度决定。而知道性和拘谨性则梗概基于考试流程中监测有计算来判定。

要达成（j）的最大化，咱们需要克服以下三类挑战：

现每每见的rl框架和范式对agent的复杂度死心很大，主要体面前：

agent摆脱度受限：将agent视为白盒就条目在agent和rlframework之间分享和传递景色。这种设想难以对复杂的agent架构（如动态波折文管理、multi-agentrl等）进行建模，导致模子智商无法在复杂的黑盒agent上灵验泛化。

token一致性问题：现存的tito（token-in-token-out）模式迫使agent与底层的tokenizer逻辑深度耦合。在复杂的波折文管理机制下，要想守护agent和rl之间的严格一致性，其工程老本诟谇常大的。

rollout的完成时辰存在极大的方差——短则几秒长则数小时。这带来了一个异要领度问题：

训推异要领度逻辑：跑过异步rl的同学都知说念，在mfu和rl算法知道性之间量度诟谇常复杂的。严格的fifo（firstinfirstout）/同要领度会被于长尾样本block；而greedy/fffo（firstfinishfirstout）天然最大化了微辞量，却带来了不行控的distributionshift，极易导致rl半途崩掉。

前缀冗余：在多轮agent请乞降group-level的rollout中，tokenizer的encode-decode不一致性和波折文管理机制，会导致申请间分享了多半的前缀，这种冗余在考试本事形成了雄伟的打算耗费。

寥落奖励问题：复杂的agent任务的trajectory频繁包括长达数千步，使得基于寥落奖励的creditassignment在数学上颠倒不知道。这种寥落性导致呈文打算中的信噪比极低，引起高梯度方差，禁锢了大限制模子考试的知道性。

{jz:field.toptypename/}

longcot的负面影响：在r1出来之后巨匠的rl都很关注responselength的增长。但在真实的agent场景中，用户其实对履行时辰颠倒关注，淌若不加以死心可能会导致训出来的模子天然刷榜很强，但用户体验很差。

系统架构与agentrl范式

rl系统设想

为了达成确凿可推广的架构，咱们不再局限于具体的agent，而是转向了通用的轮廓层设想，将agent的履行逻辑与底层的训推引擎透顶解耦。咱们的rl系统由3个中枢模块构成：

1.agent：该层轮廓了通用agent（涵盖白盒和黑盒架构）偏执脱手环境。它谨慎合营环境交互，使agent成为一个纯正的trajectoryproducer。通过将环境交互与llmgeneration解耦，agent不错专注于中枢业务逻辑（如contextmanagement和复杂的环境交互等），而无需关爱底层的考试和推理细节。

2.中间件轮廓层：看成桥梁，该层在物理上将agent侧与考试/推理引擎阻拦。

gatewayserver：充任圭臬化通讯网关，处理agent与llm之间的交互申请。通过通用圭臬左券，它灵验地将底层模子的复杂性与agent的高层步履逻辑阻拦开来。

datapool：看成分散式数据存储，异步网罗trajectory和processsignal。它充任生成和考试解耦的缓冲区，允许天简直数据处理和批处理计谋。

3.考试与推理引擎：

rolloutengine：专用于高微辞量token生成，反应agent的生成申请。

trainengine：通过scheduler从datapool中fetch数据，更新agentmodel，UEDBETapp下载并与采样引擎保执同步，确保agent使用最新的计谋分散进行探索。

咱们在离线评估中发现，不同agent脚手架会导致显贵的性能偏差。借助该模块化设想，咱们在无需修改agent里面代码的情况下，使用多半的agent框架进行了考试。这种“引擎与agent完全解耦”的架构确保了模子能在千般环境中泛化，面前咱们已集成了数百种框架和数千种不同的用具调用步地。

对于白盒agent，咱们不错通过充分的脚手架设想和增广，以奏凯不雅测和优化模子在特定类型agent上的清楚。在m2.5中，咱们颠倒优化了昔日模子在带波折文管理的长程任务（如deepsearch）中出现的一些问题：

波折文场景性能退化：跟着交互轮次加多，中间推理和冗余不雅察的积贮会产生“肃肃力稀释”。这种噪声会导致模子在宽裕波折文窗口内对重要信息失去焦点。

训推不一致：天然波折文管理不错延长交互周期，普及agent在长波折文场景的清楚，但仅在推理时使用会由于偏离rl考试的数据分散，迫使模子在推理时被动摄取波折文变迁，处理不常见的长下文，从而影响模子清楚。

为了处理这些问题，咱们将波折文管理（contextmanagement，cm）机制奏凯整合到rl交互轮回中，将其视为驱动景色盘曲的功能性动作：

cm驱动的景色盘曲：咱们将cm建模为agentaction，而波折文变迁则蕴含在环境的dynamics中。景色从s（t）到s（t+1）的盘曲隐式包含了波折文切换的逻辑，将波折文得当包含在了模子的考试标的中。

自得当推理模式：通过在此框架内优化计谋π（θ），模子学会了内化分散偏移，泄漏出优先关注state-criticaltoken的鲁棒推理模式。

感知波折文管理计谋：在该计谋下，英雄联盟比赛投注模子在rl生成流程中就需要学会猜想可能的波折文管理和转变，模子通过主动保留与标的任务相关的信息和减少无关波折文信息，大幅普及了在context-managementagent下的性能。

很多用户的确凿在用的agent践诺上是闭源的，咱们完全无法感知里面的agentloop逻辑。为了确保模子在不透明架构上也能对脚手架针对性优化，咱们选用了以下决议：

非侵入式集成：forge不感知agent里面的达成细节，里面只需要将申请打到rl办事的gateway，框架里面即可进行数据网罗和考试，因此在践诺rl考试时不错兼容狂放波折文操作（如记挂压缩、历史重写），狂放里面的agentloop（举例deepthink、multi-agent等等）。

多框架泛化：通过将考试轮回与agent里面景色解耦，minimaxm2.5凡俗适配多半黑盒agent——不管所以沙盒+mcp环境为主的代码agent（举例咱们将opencodeagent奏凯视为一个黑盒agent来考试），照旧使用激进波折文缩减计谋的agent（如truncatebc）。实验标明，该门径在完全不透明的黑盒系统上依然能带来知道的普及。

工程优化

为了处理微辞量与数据分散一致性之间的冲突，咱们建议了windowedfifo协调计谋。该计谋介于fifo和greedy之间，即不错保证系统的微辞，也王法了样本的off-policyness。

假定现时达到了最大的生成并发量（如n=8192），生成队伍为q，现时头部位于索引h。考试协调器受限于一个大小为w（如w=4096）的可见窗口：

受限可见性：协调器只可从规模内获得已完成的轨迹。

局部野心（窗口内）：在行径窗口内，协调器可立即提真金不怕火任何已完成轨迹，幸免了队头窒碍（hol），快速任务无需恭候头部任务完成。

全局严格窒碍（窗口外）：即使索引为h+w+k的任务已完成，协调器也不容获得它。

料理股东：唯有当头部的任务被亏空时，窗口才上前滑动（h→h+1）。这迫使协调器必须恭候现时窗口内的“长周期过期任务”，在意考试分散向“快而简便”的样本严重偏移。

agent的多轮申请间存在很高的波折文前缀重合度，传统门径将每个申请视为寂寞样本，重迭打算巨匠前缀，耗费了多半的考试算力。

咱们建议了prefixtreemerging决议，将考试样本从“线性序列”重构为“树形结构”，底下是具体的数据处理和考试计谋：

只须分享基础前缀，completions就能在样本级别统一到一棵前缀树中（即使后续反应或采样分支不同）。

通过哄骗attentionmask原语（如magiattention）示意不同branch之间的依赖关系，不错保证前向打算在数学上与naive决议完全一致，在打算loss时，咱们会把前缀树unmerge为序列的步地，不影响后续的loss打算和有计算统计。

该决议甩掉了冗余的前缀，比拟于naive决议达成了约40倍的考试加快，且显贵裁减了显存支出。

引入异步rl之后天然rollout阶段算力占比裁减到了60%傍边，但推理自己还有很大优化空间，咱们通过底下的几项优化来加快llm推理：

dynamicmtp：当先咱们引入mtp进行推理加快，同期为了保证考试流程中守护draftmodel的高摄取率，咱们通过top-kklloss在rl流程中执续考试detachedmtphead，与rlpolicy保执对皆。

rollout侧的pd诀别：pd诀别不错甩掉moe协调中的pd干豫，为每个实例提供寂寞的并行和生成计谋，在最大化微辞量的同期优化长尾样本的延伸，在意顶点样本窒碍fifoscheduler，并带来较高的offpolicy。

全局l3kvcachepool：在多轮和超长波折文的agent场景下，申请间领有极高的分享前缀比例，然则局部的kvcache受容量死心，无法达到安祥的prefixcache掷中率，致使在rlbatchsize极大的情况下，会发生多半由于结果导致的重打算，因此需要支柱全局的l3kvcache。同期，forge还通过schedulercost-aware的协调机制，量度列队延伸祥和存传输时辰来动态路由申请，在不使实例超载的前提下最大化缓存局部性。

scalableagentrl算法

为了处理超长轨迹的信用分派问题并确保知道，咱们设想了一个由三部分构成的复合奖励：

1.流程奖励（processreward）：监督agent的中间步履（如刑事背负谈话搀和或特定用具调用失实），提供密集反馈，而不单依赖最终间隔。

2.任务完成时辰奖励：将相对完成时辰看成奖励信号。因为真实延伸不仅取决于token生成，还受用具履行和子agent调用影响，这能激励agent主动哄骗并行计谋、聘用最短的履行旅途来加快任务。

3.用于裁减方差的后续奖励（reward-to-go）：长周期任务的寥落奖励容易激励高梯度方差。咱们使用reward-to-go来圭臬化呈文，大幅提高了信用分派的精度，知道了优化流程。

训出一个真或然用的模子，工程、数据、算法统筹兼顾，能赶在年前交出这份答卷，离不开背后每一位共事的接力。看到了社区颠倒多的正向反馈感到颠倒怡悦，其实m2.5还有很大的普及空间，里面rl也还在陆续跑，性能也在执续涨。面前，m2.5也曾全面开源。

huggingface:huggingface.co/minimaxai/minimax-m2.5

github:github.com/minimax-ai/minimax-m2.5

春节随即到了，祝巨匠新年情愿！

lol外围投注考试加快40倍、冲破“不行能三角”: MiniMax Agent RL 架构解密

热点资讯

推荐资讯

lol外围投注 考试加快40倍、冲破“不行能三角”: MiniMax Agent RL 架构解密

热点资讯

推荐资讯

lol外围投注考试加快40倍、冲破“不行能三角”: MiniMax Agent RL 架构解密