Harness Engineering爆火!AI自动化开发新趋势,普通人也能轻松上手!

张开发
2026/4/15 14:28:54 15 分钟阅读

分享文章

Harness Engineering爆火!AI自动化开发新趋势,普通人也能轻松上手!
Harness Engineering是近期AI圈的新兴概念它关注如何让AI模型在执行任务时持续保持正确性。文章回顾了AI的三大进化阶段提示词工程、上下文工程和Harness Engineering并解释了三者之间的关系。文章还介绍了Harness Engineering的核心机制包括上下文管理、工具选择、独立评估和失败恢复。此外文章还探讨了多Agent架构和普通人如何利用Harness Engineering提高AI协作效率强调了将大任务拆分、规则沉淀和自我验证的重要性。最近AI圈造词的速度是真快快到好多人已经追不上了。说真的我是不急的一个技术来了也不差那一时半会去应用能成为经典的东西不怕过时之前也说过[这么卷不累吗。还记得早期的提示词教程吗当时大家到处找提示词模版回头看那些模版根本不重要懂怎么把意图表达清楚才重要。所以时间要花在刀刃上。这不最近又有一个新概念叫Harness Engineering说是特别的火我群里已经聊的很high了然后发现连我腾讯的同事最近也都在用这个新理念搞全自动化开发流程。我研究了一圈下来发现理解起来也不复杂。今天就把我的研究心得跟大家汇报下从概念到实操说清楚到底是咋回事。Harness到底是什么Harness这个词本来的意思是缰绳、马鞍那一整套控制马的装备。马是模型跑得快但自己不知道该往哪跑。咱们就是起马的人提供方向。Engineering就是工程的意思没啥好说的。说白了Harness Engineering意思是给模型说清楚怎么把活干好。任务怎么拆、工具怎么用、做完了怎么验证、失败了怎么恢复、什么时候该把控制权交回给人这些都是它要管的事。咱们回头看看过去两年AI其实经历了三次进化。大模型刚火的时候大家研究提示词怎么写角色设定、风格约束、few-shot示例这叫提示词工程Prompt Engineering关注的是怎么把任务说清楚。后来发现光说清楚不够模型得真的知道相关信息于是有了上下文工程Context Engineering关注的是怎么把信息给对。再后来发现信息给对了模型也不一定能稳定执行。它可能计划做得很好但执行跑偏了在很长的链路里慢慢偏航了系统却没发现。这就是Harness Engineering的出发点关注的是怎么让模型在真实执行中持续做对。三者是包含关系Harness包含ContextContext包含Prompt。用nano banana画的图举个例子。假设你让一个设计师去完成一套 App的视觉改版。Prompt就是把需求讲清楚风格走轻盈路线、主色品牌蓝。Context就是把资料备齐包括竞品截图、设计规范、上一版评审意见之类的约束。Harness是你在他交付前设好的一整套机制每完成一个核心页面就拉你过一遍交付前必须真机跑一遍发现偏离设计语言的地方立刻纠正。这个对于做真实落地项目就非常关键。为什么现在突然火了现在模型已经很强了但光强没用。Anthropic就是做出claude的公司说得很具体即使是最强的模型只给一个“做一个网站这样的提示词依然生成不了能落地的应用。还有一个很直观的数学问题。假设每一步成功率95%连续20步之后端到端完成率只剩36%。这就是为什么Agent95%的时间都正常但真实任务上还有三分之一失败率。说实话这个问题是最让我烦的用AI只要有叠加的错误率有幻觉就必须自己去检查最后发现效率不一定有自己做的高。再加上GPT、Claude、Gemini在核心能力上差距在缩小。模型决定了天花板但Harness决定了地板。当模型本身不再是差异化因素围绕模型的系统设计就成了新的竞争壁垒。一个成熟的Harness长什么样综合几家头部公司的实践它的机制大概管这么几件事。OpenAI早期犯过一个错误把所有规范塞进一个巨大的AGENTS.md文件结果Agent更糊涂了。上下文窗口是稀缺资源塞太满等于什么都没说。后来改成目录页式的结构只保留核心索引详细内容按需加载。所以让AI做东西必须要能做好上下文管理。****Vercel的经验很反直觉。他们最初给Agent配了全套工具库结果效果很差Agent做冗余调用、执行不必要的步骤。后来移除了80%的工具反而更好。约束Agent的解决空间反而能提升表现。跟我们觉得工具越多越好的直觉完全相反。所以过程中应该要用哪些工具很重要。模型独立的评估也很重要。Anthropic发现让模型评估自己的工作时它会倾向于自信地表扬自己即使质量明显不行。这不是哪个模型的问题是自评估的系统性缺陷。工程化一个独立的评估器远比教会生成器自我批评要容易。**还有一个很关键的能力失败了能恢复。**搜索不准、API超时、模型误解了任务如果没有恢复机制Agent每次出错就只能从头再来。解决办法是用外部文件记录进度让Agent每次启动前先重建上下文。Agent指挥Agent为什么更好理解了Harness就理解了多Agent。当你认真去搭建这些能力时会发现一个Agent根本搞不定所有事。写代码的和验收的最好不是同一个Agent做计划的和执行的也应该分开。我们看下几家头部公司都是怎么弄的Anthropic从双Agent演进到三Agent架构。Planner负责把需求拆成可测试的功能清单Generator负责逐步实现Evaluator负责像QA一样真实测试不只看代码而是真的去操作页面、检查交互。最关键的发现是生成和评估必须分离让干活的人自己打分结果一定偏乐观。Google DeepMind做数学研究的Agent也是三件套Generator提出解法Verifier检查逻辑缺陷Reviser修复问题。两家公司不约而同用到了同一个设计模式。背后的道理很实在干活的人和验收的人必须分开你懂得。OpenAI更激进让几个人的团队用Agent从零构建了超百万行代码的产品100%由Agent编写。人类不写代码只负责设计环境。Agent失败时不是让它更努力而是问环境里缺了什么能力然后让Agent自己编写修复代码形成自我改进的闭环。但这里提醒一个容易误会的地方。一人公司不等于多Agent本身真正的一人公司等于多Agent加Harness。没有Harness你只是请了几个AI角色来帮忙。有了Harness才是真正在搭一个能稳定运转的AI团队。那普通人怎么上手理论讲完了下面讲怎么做。不需要写代码打开claude.ai就能开始。核心思路就是前面说的Planner-Generator-Evaluator三角色。最简单的方法直接在对话里模拟多Agent。每次新开一个对话窗口分阶段扮演避免相互干扰尽量做到客观公正。比如我要写一篇公众号文章。新建一个对话跟它说你现在是一个内容策划专家。我想写一篇关于AI的公众号文章目标读者是设计师。请帮我分析选题角度给出3个可选方向每个方向列出核心论点和文章结构。选定方向后再打开一个新的窗口切换角色就按方向二来。你现在是一个内容撰稿人根据上面的分析逐段撰写完整文章语言通俗、逻辑清晰。文章写完后再开一个新窗口切换做评审你现在是一个挑剔的编辑。审阅上面这篇文章开头能不能抓住注意力逻辑有没有跳跃案例有没有说服力有没有废话可以删逐条给修改建议。最后根据评审意见修改输出终稿。同样一个Claude分角色执行的效果比直接说帮我写篇文章好很多因为评审者和生成者立场不同不会自己夸自己。Harness的价值远不止多开几个窗口如果你觉得Harness就是多开几个对话做角色扮演那还是把这件事想小了。真正改变效率的是背后那套思维方式尤其是对于真正落在项目里时。**从一次性甩需求变成分步骤推进。**大多数人用AI的习惯是一次性把所有要求堆上去结果前面理解偏了后面越跑越远。Harness的思路是反过来的把大任务拆成几个步骤每一步完成后检查一下再推进。每一步都有一个人为的检查点这个习惯一旦建立AI输出的可用率会有质的变化。其实就跟咱们在工作中做项目的思路是差不多的我发现其实AI进化的路径就是不断模仿人实际的工作模式来的。**把踩过的坑变成规则沉淀下来。**这可能是Harness对普通人最有价值的一件事。每次AI犯了一个让你不满意的错就把它写成一条明确的规则存到文档里下次对话贴进去。如果你用Claude最推荐的方式是用Projects功能来记录这些错误。打开claude.ai点开Projects。创建一个项目创建好后在右边有一个 Instructions的选项点开后把你攒的规则贴在这里包括你项目中的PRD文档设计规范之类的都可以丢到这里来作为它的约束和检查条件。以后每次在这个项目里新开对话Claude都会自动读取这些规则不用你每次手动贴。你可以理解为这就是你给这个AI团队写的工作手册。如果你想更进一步可以把规则写成一个Skill文件。比如我自己有一个语音笔记整理的Skill里面写好了所有格式要求和风格偏好每次让Claude整理语音记录时它就自动按这套规则来。相当于你不只是写了工作手册还训练出了一个专门干这件事的熟练工。我自己现在就是每天用豆包输入法口述写日记然后把文本复制发给claude就能自动帮我优化好了非常效率。时间一长这份文档就是你私人定制的HarnessAI的输出质量会越来越稳定。不这么做的话你每次跟AI的协作都是从零开始同样的错反复犯效率永远上不去。**让AI自己验证自己的输出。**比如写完一段文案之后追一句现在用一个挑剔的读者视角重新审视你刚才写的内容列出你觉得最弱的三个地方。不追问的话就是前面说的自我感觉良好的陷阱AI写完就说写完了半成品直接交付了通常还要求我们仔细核对容易搞错。最后再说下Harness不是越复杂越好。Anthropic发现他们早期设计的上下文重置机制换了更强的模型后反而成了累赘。Harness必须跟模型能力匹配。总结起来核心就三句话Prompt Engineering解决怎么把任务讲清楚Context Engineering解决怎么把信息给对Harness Engineering解决怎么让模型在真实执行中持续做对。天花板高不高你我很难左右但地板稳不稳完全取决于你怎么搭这套系统。AI圈的概念会继续冒但底层逻辑就一个不能只盯着模型有多聪明多想想怎么让它稳定地落地。想动手试的话不需要写代码现在就能开始。结语抓住大模型时代的职业机遇AI大模型的发展不是“替代人类”而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作却催生了更多需要“技术业务”交叉能力的高端岗位。对于求职者而言想要在这波浪潮中立足不仅需要掌握Python、TensorFlow/PyTorch等技术工具更要深入理解目标行业的业务逻辑如金融的风险控制、医疗的临床需求成为“懂技术、懂业务”的复合型人才。无论是技术研发岗如算法工程师、研究员还是业务落地岗如产品经理、应用工程师大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情紧跟技术趋势就能在AI大模型时代找到属于自己的职业新蓝海。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用

更多文章