深入理解Harness Engineering:当AI Agent让代码不再稀缺,工程师的价值在哪里?

张开发
2026/4/13 2:37:34 15 分钟阅读

分享文章

深入理解Harness Engineering:当AI Agent让代码不再稀缺,工程师的价值在哪里?
文章目录一、从“写代码”到“设计环境”工程师角色的彻底重构二、什么是Harness Engineering三、Harness Engineering的三大支柱1. 上下文工程让Agent“看得见”2. 架构约束机械化执行边界3. 熵管理对抗“AI生成残渣”四、工程师的新角色从“执行者”到“驾驭者”五、立即可行的行动清单六、未来展望Harness将成为新的服务模板结语重新定义软件工程“我们5个月写了100万行代码但人类一行都没敲。”这是OpenAI在2026年2月公布的一个惊人实验数据。当AI Agent的代码生成能力已经远超人类时软件工程的核心矛盾正在发生根本性转变。一、从“写代码”到“设计环境”工程师角色的彻底重构2025年8月OpenAI的一个小型团队开始了一项极端实验以“零行手写代码”为硬性约束完全依赖Codex Agent构建一个内部产品。5个月后这个项目积累了约100万行代码、1500个合并PR平均每位工程师每天产出3.5个PR效率估算比传统方式提升约10倍。但这并不是关于“AI替代人类”的故事。恰恰相反OpenAI团队在报告中明确指出“我们现在最难的挑战集中在设计环境、反馈回路和控制系统上。”当AI Agent的吞吐量已经远超人类注意力时真正的瓶颈不再是“如何更快地写代码”而是“如何让快速产出的代码可控、可用”。这就是Harness Engineering驾驭工程要解决的核心问题。二、什么是Harness EngineeringHarness Engineering可以理解为为AI Agent设计和构建约束机制、反馈回路、工作流控制和持续改进循环的系统工程实践。用马术来比喻非常贴切模型就像一匹马——力量强大但方向感差Harness就是马具——缰绳、马鞍、护栏把力量引向正确方向工程师就是骑手——不再亲自奔跑而是负责决策方向与系统设计LangChain团队的一个实验为这个比喻提供了数据支撑他们用同一个模型GPT-5.2-Codex只修改了外围的“马具”Harness在Terminal Bench 2.0上的分数就从52.8飙升至66.5排名从Top 30直接冲进Top 5。三、Harness Engineering的三大支柱1. 上下文工程让Agent“看得见”从Agent的视角看凡是它运行时拿不到的知识等同于不存在。这意味着很多团队真正的短板不是模型不够聪明而是知识还散落在Slack、会议记录和产品经理的脑子里。OpenAI的做法很直接不给Codex一本冗长的说明书而是给它一张地图。他们把AGENTS.md缩成约100行左右的目录页把真正的知识沉到结构化的docs/里让仓库本身成为系统事实来源。更关键的是他们让界面、日志、指标、追踪都对Agent可见。Codex可以直接驱动应用界面读取DOM快照、截图与导航状态也可以查询日志、指标和traces。于是像“服务启动必须控制在800ms内”这种目标就能变成机器自己验证的验收标准。2. 架构约束机械化执行边界OpenAI团队把业务域拆成固定层次例如Types → Config → Repo → Service → Runtime → UI跨域能力统一通过明确接口进入其他依赖方向一律不允许并通过自定义lint和结构测试机械化执行。这里最值得注意的是他们约束的不是“每一行怎么写”而是“哪些边界绝不能破”。对人类工程师来说这些规则可能显得严格甚至有些啰嗦但对智能体来说约束不是减速器反而是放大器。3. 熵管理对抗“AI生成残渣”Agent生成的代码以不同于人类编写的方式积累“技术债”。OpenAI团队曾经每周五拿出约20%的时间人工清理所谓的“AI slop”后来改成把“黄金原则”写进仓库再让后台Codex任务周期性扫描偏差、更新质量等级、发起小而快的重构PR。这其实像极了垃圾回收机制。技术债不是某个季度再集中还的大项目而是每天以小步自动偿还的高息贷款。四、工程师的新角色从“执行者”到“驾驭者”在传统模式中工程师的核心工作是写代码和修Bug。但在Agent驱动的开发中工程师的角色彻底改变了第一部分是构建环境。当Codex卡住时团队将其视为环境设计问题——诊断Agent缺少什么才能可靠地继续工作。焦点从实现转向赋能。第二部分是管理工作。Greg Brockman建议每个团队指定一名“Agent队长”——负责思考Agent如何融入团队工作流。Peter SteinbergerOpenClaw创作者在一个月内完成了6,600次提交同时运行5-10个Agent。这两部分不是顺序关系。你同时做两件事每件事都影响另一件Agent的失败告诉你环境缺少什么更好的环境让管理更顺畅。五、立即可行的行动清单如果你也想开始实践Harness Engineering可以从这五件事做起开始实践Harness Engineering把需求改写成验收标准把知识沉到仓库把界面和观测系统开放给智能体把边界编码成规则把清理当成持续任务可验证的结果定义版本化与检索UI/日志/指标/trace可见性机械化执行日常清扫防熵增高效可控的AI Agent开发把需求改写成验收标准。少一点“做个XX功能”多一点可验证的结果定义。把知识沉到仓库。核心规则、架构原则、质量标准、执行计划要能被版本化与检索而不是只存在聊天记录。把界面和观测系统开放给智能体。没有UI、日志、指标、trace的可见性智能体只能“猜”。把边界编码成规则。架构约束、命名约定、口味偏好、可靠性要求能机械化就不要靠口头提醒。把清理当成持续任务。AI生成会放大效率也会放大坏模式。没有日常清扫熵增只会越来越快。六、未来展望Harness将成为新的服务模板Martin Fowler提了一个比较有意思的判断大多数组织只有两三个主要技术栈。未来团队可能会从一组预制Harness中选择就像今天的服务模板Service Templates帮助团队在“黄金路径”上实例化新服务。Harness模板可能包含自定义Linter规则结构测试基础上下文和知识文档额外的上下文提供者预配置的CI/CD管道结语重新定义软件工程Harness Engineering不仅是一套方法论更是一种工程思维的升级。它让我们明白AI Agent不是“替代人类”而是“解放人类”而人类工程师的核心价值终将从“代码的生产者”转变为“工程体系的设计者与守护者”。未来工程师当然仍然需要懂代码但稀缺性会越来越多地落在另外几种能力上业务抽象、系统设计、评估框架、上下文工程、工具编排、边界治理。写代码这件事不会消失只是越来越像电力时代的“拧螺丝”一样被纳入更高层的系统调度之中。参考文章https://zhuanlan.zhihu.com/p/2014014859164026634https://luckysnail.cn/posts/post-104https://zhuanlan.zhihu.com/p/2011280143604274363https://post.smzdm.com/p/aeo7l0n4/https://blog.csdn.net/u013970991/article/details/158503060

更多文章