LOL投注app官网下载

lol外围投注 考试加快40倍、冲破“不行能三角”: MiniMax Agent RL 架构解密

发布日期:2026-02-17 12:23    点击次数:152

lol外围投注 考试加快40倍、冲破“不行能三角”: MiniMax Agent RL 架构解密

转载自:minimax稀宇科技

跟着minimaxm2.5的发布并在社区激励激烈反响,很情愿能借此契机,分享在模子考试背后对于agentrl系统的一些念念考。

{jz:field.toptypename/}

在大限制、复杂的真实寰球场景中跑rl时,恒久面对一个中枢纳闷:如安在系统微辞量、考试知道性与agent天真性这三者之间取得均衡。为了处理这个问题,咱们设想了一个异步的原生agentrl系统——forge。在forge中,咱们通过达成圭臬化的agent-llm交互左券,支柱了对狂放agent脚手架进行考试,况兼通过极致的工程优化和知道的算法与奖励设想,达成了超大限制的强化学习。

在面对数十万个真实的agent脚手架和环境以及200k的波折文长度时,咱们的rl系统作念到了每天百万级样本量的微辞,并达成执续知道的reward高涨和真实的模子智商普及,并最终栽培了minimaxm2.5模子的性能突破。

问题建模

在真切酌量架构设想之前,咱们当先将agent强化学习系统的优化标的步地化为“最大化灵验考试收益(j)”:

其中,throughput是指每秒处理的原始token数目,其主要受rl系统中的四部分王法:rollout、training、dataprocessing和i/o。sampleefficiency则是指每个样本带来的平均性能普及,由数据分散、数据质料、算法间隔以及offpolicy进度决定。而知道性和拘谨性则梗概基于考试流程中监测有计算来判定。

要达成(j)的最大化,咱们需要克服以下三类挑战:

现每每见的rl框架和范式对agent的复杂度死心很大,主要体面前:

agent摆脱度受限:将agent视为白盒就条目在agent和rlframework之间分享和传递景色。这种设想难以对复杂的agent架构(如动态波折文管理、multi-agentrl等)进行建模,导致模子智商无法在复杂的黑盒agent上灵验泛化。

token一致性问题:现存的tito(token-in-token-out)模式迫使agent与底层的tokenizer逻辑深度耦合。在复杂的波折文管理机制下,要想守护agent和rl之间的严格一致性,其工程老本诟谇常大的。

rollout的完成时辰存在极大的方差——短则几秒长则数小时。这带来了一个异要领度问题:

训推异要领度逻辑:跑过异步rl的同学都知说念,在mfu和rl算法知道性之间量度诟谇常复杂的。严格的fifo(firstinfirstout)/同要领度会被于长尾样本block;而greedy/fffo(firstfinishfirstout)天然最大化了微辞量,却带来了不行控的distributionshift,极易导致rl半途崩掉。

前缀冗余:在多轮agent请乞降group-level的rollout中,tokenizer的encode-decode不一致性和波折文管理机制,会导致申请间分享了多半的前缀,这种冗余在考试本事形成了雄伟的打算耗费。

寥落奖励问题:复杂的agent任务的trajectory频繁包括长达数千步,使得基于寥落奖励的creditassignment在数学上颠倒不知道。这种寥落性导致呈文打算中的信噪比极低,引起高梯度方差,禁锢了大限制模子考试的知道性。

{jz:field.toptypename/}

longcot的负面影响:在r1出来之后巨匠的rl都很关注responselength的增长。但在真实的agent场景中,用户其实对履行时辰颠倒关注,淌若不加以死心可能会导致训出来的模子天然刷榜很强,但用户体验很差。

系统架构与agentrl范式

rl系统设想

为了达成确凿可推广的架构,咱们不再局限于具体的agent,而是转向了通用的轮廓层设想,将agent的履行逻辑与底层的训推引擎透顶解耦。咱们的rl系统由3个中枢模块构成:

1.agent:该层轮廓了通用agent(涵盖白盒和黑盒架构)偏执脱手环境。它谨慎合营环境交互,使agent成为一个纯正的trajectoryproducer。通过将环境交互与llmgeneration解耦,agent不错专注于中枢业务逻辑(如contextmanagement和复杂的环境交互等),而无需关爱底层的考试和推理细节。

2.中间件轮廓层:看成桥梁,该层在物理上将agent侧与考试/推理引擎阻拦。

gatewayserver:充任圭臬化通讯网关,处理agent与llm之间的交互申请。通过通用圭臬左券,它灵验地将底层模子的复杂性与agent的高层步履逻辑阻拦开来。

datapool:看成分散式数据存储,异步网罗trajectory和processsignal。它充任生成和考试解耦的缓冲区,允许天简直数据处理和批处理计谋。

3.考试与推理引擎:

rolloutengine:专用于高微辞量token生成,反应agent的生成申请。

trainengine:通过scheduler从datapool中fetch数据,更新agentmodel,轮盘游戏下载并与采样引擎保执同步,确保agent使用最新的计谋分散进行探索。

咱们在离线评估中发现,不同agent脚手架会导致显贵的性能偏差。借助该模块化设想,咱们在无需修改agent里面代码的情况下,使用多半的agent框架进行了考试。这种“引擎与agent完全解耦”的架构确保了模子能在千般环境中泛化,面前咱们已集成了数百种框架和数千种不同的用具调用步地。

对于白盒agent,咱们不错通过充分的脚手架设想和增广,以奏凯不雅测和优化模子在特定类型agent上的清楚。在m2.5中,咱们颠倒优化了昔日模子在带波折文管理的长程任务(如deepsearch)中出现的一些问题:

波折文场景性能退化:跟着交互轮次加多,中间推理和冗余不雅察的积贮会产生“肃肃力稀释”。这种噪声会导致模子在宽裕波折文窗口内对重要信息失去焦点。

训推不一致:天然波折文管理不错延长交互周期,普及agent在长波折文场景的清楚,但仅在推理时使用会由于偏离rl考试的数据分散,迫使模子在推理时被动摄取波折文变迁,处理不常见的长下文,从而影响模子清楚。

为了处理这些问题,咱们将波折文管理(contextmanagement,cm)机制奏凯整合到rl交互轮回中,将其视为驱动景色盘曲的功能性动作:

cm驱动的景色盘曲:咱们将cm建模为agentaction,而波折文变迁则蕴含在环境的dynamics中。景色从s(t)到s(t+1)的盘曲隐式包含了波折文切换的逻辑,将波折文得当包含在了模子的考试标的中。

自得当推理模式:通过在此框架内优化计谋π(θ),模子学会了内化分散偏移,泄漏出优先关注state-criticaltoken的鲁棒推理模式。

感知波折文管理计谋:在该计谋下,英雄联盟比赛投注模子在rl生成流程中就需要学会猜想可能的波折文管理和转变,模子通过主动保留与标的任务相关的信息和减少无关波折文信息,大幅普及了在context-managementagent下的性能。

很多用户的确凿在用的agent践诺上是闭源的,咱们完全无法感知里面的agentloop逻辑。为了确保模子在不透明架构上也能对脚手架针对性优化,咱们选用了以下决议:

非侵入式集成:forge不感知agent里面的达成细节,里面只需要将申请打到rl办事的gateway,框架里面即可进行数据网罗和考试,因此在践诺rl考试时不错兼容狂放波折文操作(如记挂压缩、历史重写),狂放里面的agentloop(举例deepthink、multi-agent等等)。

多框架泛化:通过将考试轮回与agent里面景色解耦,minimaxm2.5凡俗适配多半黑盒agent——不管所以沙盒+mcp环境为主的代码agent(举例咱们将opencodeagent奏凯视为一个黑盒agent来考试),照旧使用激进波折文缩减计谋的agent(如truncatebc)。实验标明,该门径在完全不透明的黑盒系统上依然能带来知道的普及。

工程优化

为了处理微辞量与数据分散一致性之间的冲突,咱们建议了windowedfifo协调计谋。该计谋介于fifo和greedy之间,即不错保证系统的微辞,也王法了样本的off-policyness。

假定现时达到了最大的生成并发量(如n=8192),生成队伍为q,现时头部位于索引h。考试协调器受限于一个大小为w(如w=4096)的可见窗口:

受限可见性:协调器只可从规模内获得已完成的轨迹。

局部野心(窗口内):在行径窗口内,协调器可立即提真金不怕火任何已完成轨迹,幸免了队头窒碍(hol),快速任务无需恭候头部任务完成。

全局严格窒碍(窗口外):即使索引为h+w+k的任务已完成,协调器也不容获得它。

料理股东:唯有当头部的任务被亏空时,窗口才上前滑动(h→h+1)。这迫使协调器必须恭候现时窗口内的“长周期过期任务”,在意考试分散向“快而简便”的样本严重偏移。

agent的多轮申请间存在很高的波折文前缀重合度,传统门径将每个申请视为寂寞样本,重迭打算巨匠前缀,耗费了多半的考试算力。

咱们建议了prefixtreemerging决议,将考试样本从“线性序列”重构为“树形结构”,底下是具体的数据处理和考试计谋:

只须分享基础前缀,completions就能在样本级别统一到一棵前缀树中(即使后续反应或采样分支不同)。

通过哄骗attentionmask原语(如magiattention)示意不同branch之间的依赖关系,不错保证前向打算在数学上与naive决议完全一致,在打算loss时,咱们会把前缀树unmerge为序列的步地,不影响后续的loss打算和有计算统计。

该决议甩掉了冗余的前缀,比拟于naive决议达成了约40倍的考试加快,且显贵裁减了显存支出。

引入异步rl之后天然rollout阶段算力占比裁减到了60%傍边,但推理自己还有很大优化空间,咱们通过底下的几项优化来加快llm推理:

dynamicmtp:当先咱们引入mtp进行推理加快,同期为了保证考试流程中守护draftmodel的高摄取率,咱们通过top-kklloss在rl流程中执续考试detachedmtphead,与rlpolicy保执对皆。

rollout侧的pd诀别:pd诀别不错甩掉moe协调中的pd干豫,为每个实例提供寂寞的并行和生成计谋,在最大化微辞量的同期优化长尾样本的延伸,在意顶点样本窒碍fifoscheduler,并带来较高的offpolicy。

全局l3kvcachepool:在多轮和超长波折文的agent场景下,申请间领有极高的分享前缀比例,然则局部的kvcache受容量死心,无法达到安祥的prefixcache掷中率,致使在rlbatchsize极大的情况下,会发生多半由于结果导致的重打算,因此需要支柱全局的l3kvcache。同期,forge还通过schedulercost-aware的协调机制,量度列队延伸祥和存传输时辰来动态路由申请,在不使实例超载的前提下最大化缓存局部性。

scalableagentrl算法

为了处理超长轨迹的信用分派问题并确保知道,咱们设想了一个由三部分构成的复合奖励:

1.流程奖励(processreward):监督agent的中间步履(如刑事背负谈话搀和或特定用具调用失实),提供密集反馈,而不单依赖最终间隔。

2.任务完成时辰奖励:将相对完成时辰看成奖励信号。因为真实延伸不仅取决于token生成,还受用具履行和子agent调用影响,这能激励agent主动哄骗并行计谋、聘用最短的履行旅途来加快任务。

3.用于裁减方差的后续奖励(reward-to-go):长周期任务的寥落奖励容易激励高梯度方差。咱们使用reward-to-go来圭臬化呈文,大幅提高了信用分派的精度,知道了优化流程。

训出一个真或然用的模子,工程、数据、算法统筹兼顾,能赶在年前交出这份答卷,离不开背后每一位共事的接力。看到了社区颠倒多的正向反馈感到颠倒怡悦,其实m2.5还有很大的普及空间,里面rl也还在陆续跑,性能也在执续涨。面前,m2.5也曾全面开源。

huggingface:huggingface.co/minimaxai/minimax-m2.5

github:github.com/minimax-ai/minimax-m2.5

春节随即到了,祝巨匠新年情愿!






Copyright © 1998-2026 LOL投注app官网下载™版权所有

epingren.com 备案号 备案号: 粤ICP备16065124号-1

技术支持:®lol投注  RSS地图 HTML地图