Agent长任务开发教程(非常详细),Anthropic工程化方案全解,收藏这一篇就够了!

张开发
2026/4/3 12:58:36 15 分钟阅读
Agent长任务开发教程(非常详细),Anthropic工程化方案全解,收藏这一篇就够了!
当 Agent 真开始连续跑几个小时怎么避免它越跑越偏、越写越自我感觉良好。同样都叫 Harness一个管环境一个管运行时。OpenAI 更像“把路修平”Anthropic 更像“给车装方向盘、刹车和仪表盘”。最近围绕原文的转述已经不少抓得最多的词是“GAN 式多代理”“上下文重置”“主观任务可打分”。这些点都成立但如果文章只停在这里还是一张架构海报。这篇文章想往下多走一层失真到底发生在哪Anthropic 把哪些失真外移成了系统机制这些机制什么时候值得用、什么时候应该拆掉。太长不看版• 原文真正要解决的不是“多 Agent 不多 Agent”而是两个失真源context anxiety上下文焦虑和self-evaluation自我评估偏差。•planner / generator / evaluator只是表面形式底层思想是把“执行”和“挑刺”从一个 Agent 身上拆开。• 其中最承重的不是三代理本身而是 sprint contract验收协议和 rubric评分准绳——前者把“完成标准”物化成协议后者把主观质量压成可打分维度。• 脚手架不是越多越好。Anthropic 自己在模型升级后就开始系统性地拆掉 Sprint 结构再观察性能有没有下降。• 从 Skills 到 HarnessAnthropic 一直在做同一件事缩小“必须靠模型自觉”的那部分面积。先看一张总览图会更容易抓住 OpenAI 和 Anthropic 这两套 Harness 分别在补哪一层第一个问题失真发生在哪Anthropic 看到的不是一个抽象的“Agent 不稳定”而是两类非常具体的失真。失真 1上下文越长越容易提前收工原文用了一个词叫context anxiety。意思不是模型“忘了”而是它在接近自己感知中的上下文边界时会开始下意识地收尾。任务还没真正做完它已经进入“差不多可以交卷了”的状态。长任务最怕的不是单次答错而是持续执行时的目标漂移。原文里一个很关键的信号是它明确把context reset和compaction区分开了。•compaction是在原会话里压缩历史•context reset是彻底起一个新的 Agent再用结构化工件做交接更贴近工程的说法是有些问题压缩历史还不够得把会话本体也一起换掉。失真 2模型做完事以后天然倾向于夸自己让模型评价自己产出的东西它通常会偏正面即使在人类看来质量只是一般。在前端设计这种主观任务里这个问题特别明显。UI 能跑不代表设计有辨识度。页面看起来完整不代表它真的有产品感。而一旦进入编码场景模型依旧可能把“能运行”误判成“已经达标”把“没有报错”误判成“已经够好”。Anthropic 的做法不是抽象地说“主观任务也能量化”而是拿出了具体方法。它把审美拆成 4 个可打分的维度design quality设计质量、originality原创性、craft工艺水平、functionality功能性。然后刻意把前两者的权重拉高——因为模型默认在工艺和功能性上往往不差真正缺的是“别太像 AI 套模板”。evaluator 不是对着截图打分而是通过 Playwright MCP 实际点进页面、截图、浏览、操作然后逐项评估。为了防止评分漂移还用了 few-shot 校准——先给 evaluator 看几组带详细打分拆解的范例确保它的判断锚定在具体标准上。两类失真合起来看Anthropic 真正在解决的问题就很清楚了不是让 Agent 更能干而是让它在长时间干活时别太早收工也别太轻易原谅自己。把原文里的失真源和对应机制并排看会更直观第二个问题怎么拆原文里最容易被转成海报的一张图就是planner / generator / evaluator这套结构。但如果站在架构视角我更在意的不是它有几个 Agent而是分工背后的三个设计决策。决策 1规划只管交付物不管实现细节planner把一句话需求扩成可执行规格但它故意只约束产品上下文和高层技术方向不抢 generator 的低层实现决策。为什么因为一旦前置 spec 把技术细节写死且写错后面的错误会被系统性级联放大。planner 更关注“做什么”和“做到什么程度”把“怎么做”留给 generator 在动手时自己定。原文里还有个很硬的细节planner 在生成 RetroForge 的规格说明时直接读取了 Anthropic 自己开源的frontend design skill把其中沉淀的设计原则提炼进 spec形成了整个应用的视觉设计语言。这意味着 Skills 和 Harness 不是两条平行线而是在这里汇合了——Skills 负责把方法论装进系统Harness 负责让长任务沿着这些方法论持续执行。决策 2执行和判断拆到两个主体上让模型既当运动员又当裁判最后大概率谁都做不好。所以generator只管动手实现evaluator像一个挑剔 reviewer 一样去验证、打分、挑刺。分离本身不能消除宽容倾向——evaluator 依然是一个对 LLM 生成内容天然宽容的 LLM。但原文说得很直白调校一个独立的评估器使其保持怀疑态度远比让生成器对自身作品保持批判性要容易得多。决策 3验收协议物化成文件不靠口头对齐这是我认为最承重的一层。在每个 Sprint 开始前generator 和 evaluator 会先协商一份sprint contract验收协议这轮做到什么算完成、怎么验证算完成。generator 提出要构建什么以及如何验证成功evaluator 审查提案双方反复对齐直到达成一致。通信不是聊天式的而是通过文件来回写。验收也不是“感觉还行”。每个维度都有硬阈值任何一项低于阈值这个 Sprint 就判定失败generator 收到详细的问题反馈退回重做。evaluator 的验收覆盖 UI 功能、API 端点和数据库状态——不只是“看起来像完成了”。Sprint contract 解决的是 spec 太高层、验收太主观之间的断层。这套结构真正承重的部分不是三个角色本身而是下面这条闭环第三个问题这套结构真的有效吗很多同类文章讲到这里就停在“架构设计很聪明”。原文相对扎实的一点是它给了可对照的结果。RetroForgeV1 harnessOpus 4.5同一个 prompt 下单 Agent 版本大约 20 分钟、9 美元完整 harness 版本大约 6 小时、200 美元。成本差距接近 20 倍。但质量差距更直接单 Agent 版本初看能用往下点会发现游戏核心链路断着实体能摆出来却跑不起来。完整 harness 版本虽然也不完美但核心功能是可用的。更关键的是评估器给出的反馈不是“感觉还有问题”而是这种能直接进入修复的描述• 矩形填充工具只在拖拽起点和终点放地砖没有填满区域• 删除实体出生点的条件判断写偏了点击实体时并没有进入可删除状态•PUT /frames/reorder被路由顺序挡住了FastAPI 把reorder当成了frame_id评估开始从泛泛而谈变成了一种能直接驱动下一轮生成的输入。DAWV2 harnessOpus 4.6这时 Anthropic 已经开始简化脚手架——去掉 Sprint 结构让生成器长时间连续工作。整次运行大约 3 小时 50 分钟、124.70 美元其中生成器第一轮连续跑了 2 小时 7 分钟。即便在更强模型、更少脚手架的条件下QA 代理依然抓到了不少“看起来像完成了其实还差最后一公里”的问题• 时间线上的片段不能拖动• 乐器控制面板还只是展示层• 效果器还是数字滑块没有图形化编辑• 音频录制按钮能切换但并没有真正采集麦克风模型能力变强以后脚手架会减但“最后一公里的挑刺”并不会自动消失。第四个问题什么时候该拆掉脚手架这是原文里我觉得比“三代理架构”更有信息量的部分。Anthropic 不是一开始就笃定“这套结构永远最优”而是在持续问另一个问题这个组件之所以存在是不是因为当前模型还做不到如果模型变强了它是不是已经不再承重。演化路线压成表更直观阶段旧版 harnessV1Opus 4.5V2Opus 4.6核心问题多会话编码的连贯性长任务中的失真与自我评估偏差在不掉性能的前提下简化脚手架任务推进方式一次做一个 featuregenerator 按 Sprint 推进Sprint 被移除生成器长时间连续工作上下文治理context reset 很关键连续会话 compaction随模型变强脚手架进一步减配评估方式更偏任务完成evaluator 独立打分QA 仍保留但是否介入更看任务边界原文明确说evaluator 是否 load-bearing承重取决于任务是否超出模型当前 solo 能力的边界。在 Opus 4.5 上这条边界很近evaluator 几乎每轮都在发挥作用到了 4.6模型能力外扩很多原来需要评估器把关的任务已经在生成器的独立能力范围之内。这个态度很像成熟团队看中间层的方式能证明还在提供增益就留不能就拆。好的 Harness 不是不断叠加而是持续重估。回到更大的画面Anthropic 到底在搭什么如果把前面几篇 Skills 和这篇 Harness 放在一起看Anthropic 的工程哲学其实始终没变不要把所有稳定性都寄托在模型当下这一轮临场发挥上。Skills 解决“怎么做”——团队经验怎么按需注入。Harness 解决“做得对不对”——长任务过程怎么纠偏。如果再从 Claude Code Auto Mode 的视角往上看一层会发现 Anthropic 其实在做一整套运行时分层层机制解决什么常驻约束层CLAUDE.md/ rules长期约束、身份与边界方法加载层Skills按需注入知识与方法确定性控制层Hooks / 权限管线不该靠模型判断的事长任务运行时层Harness交接、纠偏、验收行动风控层Auto Mode / 安全分类器什么能做、什么不能做它不是在堆更多 Agent而是在把不同类型的判断拆到不同的控制层里。Anthropic 在做的不是堆更多 Agent而是在不断缩小“必须靠模型自觉”的那部分面积。写在最后所以我看完后的判断不是“多 Agent 更厉害了”而是另一句更朴素的话AI 写得快从来不是最难的。难的是让它在连续几小时的执行里依然沿着同一个目标往前走。这也是整套设计最值得反复回看的地方。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章