**Zhiyuan Hu, March 2026**
过去一年里,各个大模型公司公开的技术报告给出的最重要信号,不是又出现了一个更好的 PPO/GRPO 变体,而是真正有效的agentic RL已经从单轮文本优化,转向了在长上下文、工具调用、部分可观测、异步执行环境中的系统性策略学习。Kimi K1.5[1] 把长上下文 RL、partial rollout 重用和 mirror-descent 风格的 policy optimization 拉到了台前;Kimi K2[2] 与 K2.5[3] 又把 agentic 数据合成、多模态RL、token-level clipping、GRM rubric、Toggle、PARL / Agent Swarm 这些关键部件公开。MiniMax则把另一个事实讲得更彻底:当 agent rollout 的时长分布从秒级扩展到分钟级、小时级时,训练瓶颈就不再只是 loss design,而是吞吐、稳定性与 agent 灵活性之间的三难权衡,以及异步执行、调度策略、上下文管理与效率导向的优化目标如何共同影响学习闭环。此外,GLM强调的是阶段化 RL,Reasoning RL、Agentic RL、General RL 不是混在一起一次训完,而是通过顺序化 pipeline 逐步推进,并借助异步 RL 基础设施与跨阶段蒸馏来兼顾长时程 agent 学习和能力保持。由此可见,Agentic RL 的主问题已经从怎么更新参数扩展为怎么在真实 Agent环境里运行时,持续制造可用学习信号,并且用在线真实交互的轨迹数据来驱动优化。
Agentic RL 训练,不应该被视为一串孤立模块,而应该围绕三个不变量来理解它。第一,必须保护模型的探索能力;第二,必须持续制造非退化的梯度,避免让advantage 坍缩的训练批次;第三,必须控制训练分布,参数更新和真实部署间的分布偏移,因为长轨迹、异步执行和工具环境会天然引入 staleness、off-policy drift 与 train-serving mismatch。相关研究工作如GEM[4]、ReMax[5]、Knapsack RL[6]、RL-ADA[7],以及 Kimi、MiniMax、GLM 等技术路线,其实都可以被统一到这三个目标里。
Agentic RL 的训练对象不再是给定一个 prompt输出一个答案的单轮文本映射,而是一个在环境中交互的策略。这个策略要处理状态更新、工具调用、外部观察、上下文整理、子任务委派、终止条件判断,以及成本/时延/安全约束。换句话说,agentic RL 更像是在做一类带有长时间尺度、部分可观测性和结构化动作空间的策略学习,而不是简单地对文本续写概率做后验重排。
这会直接带来四个训练上的变化。第一,状态不再只由用户输入决定,而是由历史轨迹、工具返回、环境回馈、记忆摘要和当前上下文共同构成。第二,动作也不再只是下一个 token;它可能是选哪个工具填什么参数要不要压缩上下文是否并行分派子任务。第三,奖励会更延迟、更稀疏、也更复合:既要看结果对不对,也要看过程是否准确、是否高效、是否节省 token 和 单位时间有效训练效率。第四,rollout 时间会高度不均匀,导致同步训练代价高、异步训练又引入分布偏移。因此,agentic RL 的本质,不是把 GRPO/PPO 套到更长的输出上,而是把环境、奖励、采样、调度、缓存、优化器和评测接到同一个闭环里。
如果把 Agentic RL 理解成一个在真实环境里持续交互、持续采样、持续更新的策略学习系统,那么最重要的就不再是这一步用哪种 RL 算法,而是训练闭环能否长期守住三个更底层的条件。这里的不变量,不是指某个量在数学上严格恒定,而是指它们虽然会天然漂移,却必须在整个训练过程中被不断拉回到一个仍然可学习和可优化的区间里。更准确地说,前两个是不应跌破的下限:策略探索空间不能塌缩,学习信号不能退化。第三个是不应越过的上限:Rollout 分布、更新分布与部署分布之间的偏移不能失控。
第一不变量不是输出要更随机,也不是token 熵要一直更高,而是模型在给定状态下,仍然保有一组彼此可区分、语义上不同、并且真实可行的行为路径。对 Agentic RL 来说,这个探索空间不只是不同措辞,而是不同的任务分解方式、不同的工具调用顺序、不同的记忆读写策略、不同的上下文整理方式、不同的停止条件以及不同的自我修正路径。它之所以会变,是因为训练天然会把概率质量压向少数当前最占优的模式。只要训练目标主要奖励某一种更短、更像标准流程、或者更容易被 verifier 识别的行为,模型就会逐渐把其他原本也可能成功的路径边缘化。对 Agent 场景,这种压缩比单轮问答更严重,因为工具接口、scaffold、上下文模板和终止逻辑本身就会暗中偏好某类固定 workflow。保持这一不变量的意义在于它决定了后续 RL 是否还有真正的搜索空间。RL 的价值不是把已知最好答案重复推高概率,而是让模型在交互中持续发现此前还没被放大的高回报行为。如果可探索空间已经提前塌缩,后面的采样大多只是对同一种套路做表面扰动,reward spread 会越来越小,新的学习方向也会越来越少。这样一来训练看似还在继续,实际上却只是在一个已经缩水的空间里做局部扰动。
即使模型仍然保有多种可行路径,这些路径也不一定会被学到。因为参数更新依赖的不是存在别的可能性,而是不同轨迹之间的差异能否稳定地转成非零、方向明确、尺度合理的梯度。因此第二不变量就是训练系统必须持续制造非退化的学习信号:不同rollout 之间要能被比较、被区分,并且这种比较最终要能作用到参数更新上。这个不变量会发生变化是因为 Agentic RL 的奖励结构天然容易让信号塌缩。真实任务往往奖励延迟、结果稀疏、过程很长,而且最终常常只有成败标签、粗粒度 rubric,或者少数高层质量分。于是同一组采样很容易出现两种退化情形:简单任务几乎全对,困难任务几乎全错。前者说明模型已经在该局部饱和,后者说明模型尚未进入可学习区域,但对梯度而言,这两类样本都会导向同一个结果:组内没有足够差异,优势接近消失,更新方向随之退化。再进一步长轨迹会把信用分配拉长,部分可观测环境会让为什么成功/失败变得模糊,工具噪声和 verifier 噪声又会继续污染比较关系。结果就是系统表面上在大量收集交互数据,实际上却在不断生产不可学样本。
保持学习信号持续非退化,在于它决定训练是否真的在推动能力边界,而不是只是在消耗预算。很多 RL 失败并不是因为模型太弱,也不是因为数据太少,而是因为系统无法稳定回答一个最基本的问题:在模型当前能力附近,哪些行为比另外一些行为更值得被放大?无法回答这个问题,优势就会坍缩,梯度就会趋近于零,训练就会呈现一种很忙但几乎不前进的状态。学习信号的质量,不取决于奖励项有多少,而取决于比较是否可学。奖励可以很复杂,但如果它无法在模型当前边界附近稳定地区分略好和略差的轨迹,它仍然会产生退化梯度。反过来一个看上去更简单的反馈,只要能持续打开轨迹间的有效差异,也能成为高质量学习信号。所以第二不变量真正要求保持不变的,不是奖励总量,而是可比较性与可更新性。Agentic RL 需要的不是更多分数,而是更多能被优化器真正利用的行为对比。
前两个不变量解决的是还有没有别的路径可走和这些路径能不能变成梯度,第三个不变量解决的则是这些梯度是不是作用在了正确的分布上。在 Agentic RL 中,被策略模型采样出来的 rollout 分布、被 learner 真正拿来更新的样本分布、以及最终部署时系统实际执行的策略分布,几乎不可能天然一致。所谓第三不变量,就是三者之间的偏移必须被限制在可校正、可解释、不会主导训练误差的范围内。它变化原因是因为 Agent 训练天然会持续制造分布漂移。轨迹长短差异极大,严格同步的 on-policy 学习通常不现实,系统不可避免地会引入异步采样、缓存、续跑、复用和过滤,而这会让生成样本时的策略和更新参数时的策略发生时间上的错位。同时Agent 的状态不是一个静态 prompt,而是由工具返回、环境反馈、上下文裁剪、记忆摘要、调度决策等共同构成。只要其中任何一层在 rollout、training、serving 三个阶段的表示方式不完全一致,模型学到的就可能不是同一个动作语义。其次训练和部署脚手架常常并不完全相同:解码设置、context packing、tool schema、tokenizer/engine、middleware、日志序列化方式都会改变模型真正面对的决策问题。这样一来,被优化的就不再是一个干净统一的策略分布,而是多个相似但不相同的分布拼在一起的近似对象。
保持这三个分布偏移可控的意义在于它决定了训练增益能否转移到真实执行。只要分布偏移足够大,就会出现一种典型失真:模型在 learner 看到的样本上似乎学得很好,但这些改进并不能稳定地反映到部署时的工具调用、上下文管理和长期交互里,甚至会因为 off-policy 偏差、接口不对齐或状态表示错位而在上线时被放大成性能退化。对长轨迹 Agent,因为轨迹越长,前面每一点小的偏移都会沿着后续状态转移不断累积,最终把策略推向在训练里看起来合理、在真实环境里却不可执行的方向。Agentic RL 里的分布偏移,并不只是外部环境变化带来的,它在很大程度上是系统自己制造出来的。这些看似基础设施层面的选择,都会直接改变 learner 实际在优化什么。因此第三不变量不是单纯的算法修正问题,而是一个系统级的一致性问题。