NVIDIA 提出 PivotRL:不做整段长轨迹 RL,也能把 Agent 后训练做得又快又稳

张开发
2026/4/6 22:26:05 15 分钟阅读

分享文章

NVIDIA 提出 PivotRL:不做整段长轨迹 RL,也能把 Agent 后训练做得又快又稳
如果你最近在看 Agent 训练会很容易卡在一个两难里。一边是 SFT。它便宜、稳定、工程实现相对简单但很容易把模型“教死”。你把模型往某个任务上拉得很猛它可能在这个任务上涨分却把原本还不错的通用能力拖垮了。另一边是端到端 RL。它通常更能保住泛化尤其适合多轮交互、工具调用、代码修复这类长链路任务。但问题也很现实太贵。每次更新都要让模型跑完整段轨迹和环境反复交互算力账单非常难看。NVIDIA 在 2026 年 3 月 22 日提出《PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost》就是在试图解决这个矛盾能不能既保留 SFT 的低成本又尽量拿到 RL 的泛化和稳定性而且不用为整段长轨迹 rollout 付费这篇论文给出的答案是可以试着不要每一步都训而是只在“关键转折点”上花 rollout 预算。它的方法就叫 PivotRL。这篇论文到底在解决什么问题论文关注的是 long-horizon agentic tasks也就是那种不是一句话就能完成、而是要多轮调用工具、执行代码、访问网页、和环境持续交互的任务。比如对话式工具调用Agentic coding终端操作Web browsing这类任务最麻烦的地方不只是“做对一次”而是中间有很多步骤。模型如果在前面某一步走偏后面整条轨迹就会越来越偏。SFT 的问题是它通常只会告诉模型“在这个状态下你应该生成这一段标准答案。”但真实环境里很多动作并不是只有一个唯一正确写法。举个直观例子在终端里你想查看某个目录内容可以用ls也可以带参数也可以换一种等价写法。只要它们在当前上下文下都能把任务往前推进这些动作就都应该被视为“可接受”。可如果训练时只拿人工演示里的那一个字符串当唯一标准模型哪怕做了一个功能上正确、但文本上不同的动作也会被判错。这就是作者认为 SFT 直接迁移到局部 RL 时会踩到的两个坑1.rollout 预算浪费在没信息量的状态上如果某个中间状态下模型采样出来的动作几乎全对或者全错那你再多采样几次对学习帮助也不大。2.奖励定义太死如果只认“和演示文本完全一致”很多功能上等价的动作都拿不到奖励训练信号会变差。PivotRL 就是围绕这两个点来改。PivotRL 的核心想法用一句话讲明白先从已有的 SFT 轨迹里找出那些“值得花钱”的关键中间状态只在这些位置做短 rollout然后不用“字符串完全一致”打分而是用“功能上是否可接受”来给奖励。这句话里有两个关键词pivot和functional reward。什么是 pivot只挑真正有学习价值的中间步骤作者把一条专家轨迹按 assistant turn 切开每个 turn 都视作一个候选训练点。但不是每个点都值得做 RL。他们先用一个冻结的参考策略在这些中间状态上做少量局部采样观察结果分布如果某个点采样出来几乎都成功说明太简单如果几乎都失败说明太难只有“有时成功、有时失败”的点才说明模型在这里真的还没学稳这些混合结果的状态就是作者说的 pivot。可以把它理解成模型最容易“转弯”的地方。在这些地方追加训练预算收益最高在那些全对或全错的地方继续烧 rollout收益很低。这其实很像一个很朴素的工程判断不要把钱花在已经学会的题上也不要花在当前根本学不会的题上而是花在“差一点就会”的题上。什么是 functional reward别只认文本一模一样第二个改动更关键。传统做法很容易把局部动作的奖励写成“如果你生成的动作和专家演示完全一样奖励就是 1否则就是 0。”这个定义看起来简单但在 Agent 任务里很容易误伤。因为很多动作的“正确性”不是由文本形式决定的而是由执行效果决定的。比如一个 shell 命令写法不同但都能拿到正确输出一个工具参数顺序不同但功能完全一致一个搜索 query 措辞不同但都能把任务推进到下一步所以 PivotRL 不再死认演示字符串而是引入 domain-specific verifier也就是领域内的验证器。它问的不是“你有没有逐字复刻专家”而是这个动作在当前状态下是不是一个局部可接受的动作只要答案是是就给正向奖励。这一步的重要性在于它把训练目标从“模仿一个写法”改成了“鼓励一类正确行为”。这比行为克隆更接近 RL 本来该做的事。方法流程其实不复杂把论文方法压缩成 4 步大概是这样1.先拿已有的 SFT 专家轨迹做起点不是从零在线采样完整轨迹而是直接复用已有数据。2.为每个中间 turn 做一个“信息量评估”看它是不是 pivot也就是是否值得后续 rollout。3.只在保留下来的 pivot 状态上做短 rollout不是整条轨迹跑到底而是局部、短程地采样动作。4.用 verifier 给局部动作打分再做 RL 更新重点不在于和专家文本一致而在于动作是否在功能上可接受。论文里还给了一个轻量的理论分析想说明两件事mixed-outcome 的状态才会产生有意义的 group-normalized updatefunctional reward 会把概率质量往“可接受动作集合”上推同时尽量保留参考策略在其他无关动作上的相对排序翻成人话就是它想证明自己为什么能一边提高当前任务表现一边少破坏那些和当前任务无关的通用能力。论文实验为什么值得看这篇论文最值得认真看的不是方法公式而是它把“效果”“成本”“遗忘”三件事一起摆到了桌面上。作者从同一个 base model 出发分别在四类 agent 场景上训练τ²-Bench对话式工具使用SWE-Bench VerifiedAgentic codingTerminal-Bench终端交互BrowseComp网页浏览基础模型是Qwen3-30B-A3B-Thinking-2507。对比对象主要有两类同数据量的 SFT在 SWE-Bench 上的端到端 RL评价分三层域内任务有没有涨分域外能力有没有掉和端到端 RL 比算力账单能不能明显下降结果一比同数据 SFT 更强而且多数场景涨得更明显先看域内结果。上表对应论文 Table 1。可以看到PivotRL 在 4 个 agent benchmark 中有 3 个超过 SFTτ²-Bench58.44 - 63.81比 SFT 再高 5.37Terminal-Bench13.75 - 20.00比 SFT 再高 6.25BrowseComp1.50 - 11.30比 SFT 再高 9.80SWE-Bench Verified37.40 - 32.67这里反而低于 SFT -4.73也就是说PivotRL 不是“全场无脑碾压”它在 SWE-Bench 这个单点上没有赢过同数据 SFT。但如果看四个域的平均域内提升论文给出的结论是PivotRL 相对 base 的平均提升是14.11而 SFT 是9.94。整体上PivotRL 的强化效果更强。结果二真正亮眼的不是涨多少而是“没怎么忘”很多后训练论文都会重点讲主任务涨分但对“副作用”一笔带过。这篇论文最有价值的地方是把 OOD retention 单独拎出来讲而且数据很直白。作者在 8 个非 agentic benchmark 上看训练后的性能变化包括IFBenchAIME25MATH500LiveCodeBenchScicodeMMLU-ProMMLU-ProXWMT24看平均变化SFT平均 -9.83PivotRL平均 0.21这几乎可以理解成SFT 明显遗忘而 PivotRL 基本没掉。更夸张的是按训练域拆开看时SFT 在某些场景会出现非常剧烈的能力回退。最典型的是 terminal-domain training 之后AIME2586.04 - 21.56暴跌 -64.48MATH50098.05 - 63.55下降 -34.50WMT2436.97 - 6.31下降 -30.66而对应的 PivotRL 版本基本都能把这些回退压到非常小AIME25 只掉到 82.92也就是 -3.12MATH500 几乎不掉为 98.00WMT24 仍然维持在 36.48如果你在做 Agent 后训练这组结果其实比单纯的主任务涨 3 分还是 5 分更重要。因为很多团队真正怕的不是“没涨多少”而是“训完一个 Agent别的能力全坏了”。PivotRL 试图解决的正是这个工程痛点。结果三和端到端 RL 比核心卖点是便宜作者专门在 SWE-Bench 上把 PivotRL 和 E2E RL 做了对照因为这个任务上端到端 RL 很常见。这张图是全文里最适合传播的一张。论文的核心结论很简单达到相近准确率时PivotRL 需要约 4.1x 更少的 rollout turns墙钟时间约快 5.5x注意这里作者用的是“达到相近准确率所需成本”的比较而不是简单拿最终单点分数直接比。这很关键因为它更接近真实训练决策如果两个方法最后都能把模型训到差不多水平那工程上真正关心的是谁更省卡、谁更省时间。PivotRL 的回答是我不需要整段轨迹都和环境交互只在局部短 rollout所以训练成本自然更低。为什么它能更稳消融给了答案如果一篇论文只给总结果不给消融那你其实很难知道它到底是“方法真有效”还是“调参刚好撞对了”。PivotRL 在这点上做得还可以。在 τ²-Bench 上Full PivotRL63.81去掉 pivot filtering59.68去掉 functional reward57.34Same-data SFT58.44Base44.35这说明两个组件都不是摆设。pivot filtering的作用是把 rollout 预算集中在真正有 advantage signal 的状态上。functional reward的作用是避免“功能正确但写法不同”的动作被误判成错误。配套的训练动态图也支持这个解释如果随机选 turnbatch 内 reward variance 会很快塌掉如果只选 pivotreward variance 能维持更久variance 更高通常意味着优化信号还在不是所有样本都在给零梯度这和作者前面那套理论分析是对上的。还有一个很现实的信号它已经被 NVIDIA 用到 Nemotron-3-Super论文最后给了一个更偏“工业集成”的结果。在 Nemotron-3-Super 的一个 RL stage 前后几项 agent benchmark 都有明显提升τ²-Bench48.00 - 64.00SWE-Bench Verified12.87 - 61.33Terminal-Bench 1.1 Core23.33 - 34.17BrowseComp13.03 - 25.04不过这里一定要加一句边界说明论文原文写得很清楚这个 RL stage 里PivotRL 负责的是 agentic verticals而其他 RL 环境也同时负责 reasoning 和 chat。所以这张表不能被解读成“这些涨幅全都是 PivotRL 单独带来的”。更准确的说法是PivotRL 已经被纳入 NVIDIA 的大规模 agent 后训练流程里而且作者把它当成 agent 方向的核心工作模块之一。这已经是很强的工业信号了但不能过度归因。这篇论文最值得记住的不是一个新名字而是一个训练思路如果只看名字PivotRL 好像只是又一个 RL 小变体。但它真正有启发性的地方是把 Agent 后训练问题拆成了两个非常务实的问题在线采样到底该花在哪些状态上局部动作到底该怎么定义“做对了”前一个问题决定成本。后一个问题决定训练信号质量。很多 Agent 训练方法喜欢把注意力放在更大的框架上比如更复杂的搜索、更大的 rollout、更长的 credit assignment 链条。而 PivotRL 的思路更“工程”一些先承认整段轨迹 rollout 太贵再承认字符串精确匹配太死然后只去修这两个最影响投入产出比的点。这也是为什么它会给人一种“并不花哨但很实用”的感觉。它的局限也要说清楚这篇论文并不是没有问题。我认为至少有 5 个需要保留的问号1.它强依赖 verifier 质量如果领域里没有一个足够可靠的“局部动作验证器”functional reward 的效果就会打折。2.主要验证集中在特定 agent 场景虽然覆盖了 4 个 agent 域但还谈不上已经证明对所有复杂 Agent 任务都普适。3.和 E2E RL 的直接对比只在 SWE-Bench 上展开所以“比端到端 RL 便宜很多”这件事在别的环境里是否同样成立还需要更多证据。4.论文的理论部分是轻量解释不是完整理论闭环它能帮助理解方法为什么合理但还不是那种足够强的统一理论保证。5.大模型集成结果存在混合因素Nemotron 那张表很亮眼但因为同一 RL stage 还包含其他环境训练不能把收益全算到 PivotRL 头上。这些限制并不意味着论文不行反而意味着它更像一个成熟工程方法的第一版方向对、价值明显但还有很多边界要继续补。总结这篇论文证明“局部 RL 一定优于整段 RL”而是在证明“对 Agent 后训练来说只在关键中间状态上做短 rollout可能已经足够划算”。这件事为什么重要因为今天很多 Agent 系统最大的问题不是不会做而是太贵、太慢、太容易训坏别的能力。PivotRL 把问题压缩成一个更可工业化的版本用已有 SFT 轨迹启动用 pivot 筛掉低价值状态用 functional reward 提高局部信用分配质量用更少 rollout换接近 E2E RL 的泛化收益从论文给出的证据看这个路线至少已经满足三点有明确实验收益有相当可解释的机制有工业落地信号所以如果你正在关注 Agent post-training我会建议把这篇论文当成一个很值得跟进的方向。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章