深入理解Harness Engineering：当AI Agent让代码不再稀缺，工程师的价值在哪里？

张开发

• 2026/4/13 2:37:34 • 15 分钟阅读

分享文章

深入理解Harness Engineering：当AI Agent让代码不再稀缺，工程师的价值在哪里？

文章目录一、从“写代码”到“设计环境”工程师角色的彻底重构二、什么是Harness Engineering三、Harness Engineering的三大支柱1. 上下文工程让Agent“看得见”2. 架构约束机械化执行边界3. 熵管理对抗“AI生成残渣”四、工程师的新角色从“执行者”到“驾驭者”五、立即可行的行动清单六、未来展望Harness将成为新的服务模板结语重新定义软件工程“我们5个月写了100万行代码但人类一行都没敲。”这是OpenAI在2026年2月公布的一个惊人实验数据。当AI Agent的代码生成能力已经远超人类时软件工程的核心矛盾正在发生根本性转变。一、从“写代码”到“设计环境”工程师角色的彻底重构2025年8月OpenAI的一个小型团队开始了一项极端实验以“零行手写代码”为硬性约束完全依赖Codex Agent构建一个内部产品。5个月后这个项目积累了约100万行代码、1500个合并PR平均每位工程师每天产出3.5个PR效率估算比传统方式提升约10倍。但这并不是关于“AI替代人类”的故事。恰恰相反OpenAI团队在报告中明确指出“我们现在最难的挑战集中在设计环境、反馈回路和控制系统上。”当AI Agent的吞吐量已经远超人类注意力时真正的瓶颈不再是“如何更快地写代码”而是“如何让快速产出的代码可控、可用”。这就是Harness Engineering驾驭工程要解决的核心问题。二、什么是Harness EngineeringHarness Engineering可以理解为为AI Agent设计和构建约束机制、反馈回路、工作流控制和持续改进循环的系统工程实践。用马术来比喻非常贴切模型就像一匹马——力量强大但方向感差Harness就是马具——缰绳、马鞍、护栏把力量引向正确方向工程师就是骑手——不再亲自奔跑而是负责决策方向与系统设计LangChain团队的一个实验为这个比喻提供了数据支撑他们用同一个模型GPT-5.2-Codex只修改了外围的“马具”Harness在Terminal Bench 2.0上的分数就从52.8飙升至66.5排名从Top 30直接冲进Top 5。三、Harness Engineering的三大支柱1. 上下文工程让Agent“看得见”从Agent的视角看凡是它运行时拿不到的知识等同于不存在。这意味着很多团队真正的短板不是模型不够聪明而是知识还散落在Slack、会议记录和产品经理的脑子里。OpenAI的做法很直接不给Codex一本冗长的说明书而是给它一张地图。他们把AGENTS.md缩成约100行左右的目录页把真正的知识沉到结构化的docs/里让仓库本身成为系统事实来源。更关键的是他们让界面、日志、指标、追踪都对Agent可见。Codex可以直接驱动应用界面读取DOM快照、截图与导航状态也可以查询日志、指标和traces。于是像“服务启动必须控制在800ms内”这种目标就能变成机器自己验证的验收标准。2. 架构约束机械化执行边界OpenAI团队把业务域拆成固定层次例如Types → Config → Repo → Service → Runtime → UI跨域能力统一通过明确接口进入其他依赖方向一律不允许并通过自定义lint和结构测试机械化执行。这里最值得注意的是他们约束的不是“每一行怎么写”而是“哪些边界绝不能破”。对人类工程师来说这些规则可能显得严格甚至有些啰嗦但对智能体来说约束不是减速器反而是放大器。3. 熵管理对抗“AI生成残渣”Agent生成的代码以不同于人类编写的方式积累“技术债”。OpenAI团队曾经每周五拿出约20%的时间人工清理所谓的“AI slop”后来改成把“黄金原则”写进仓库再让后台Codex任务周期性扫描偏差、更新质量等级、发起小而快的重构PR。这其实像极了垃圾回收机制。技术债不是某个季度再集中还的大项目而是每天以小步自动偿还的高息贷款。四、工程师的新角色从“执行者”到“驾驭者”在传统模式中工程师的核心工作是写代码和修Bug。但在Agent驱动的开发中工程师的角色彻底改变了第一部分是构建环境。当Codex卡住时团队将其视为环境设计问题——诊断Agent缺少什么才能可靠地继续工作。焦点从实现转向赋能。第二部分是管理工作。Greg Brockman建议每个团队指定一名“Agent队长”——负责思考Agent如何融入团队工作流。Peter SteinbergerOpenClaw创作者在一个月内完成了6,600次提交同时运行5-10个Agent。这两部分不是顺序关系。你同时做两件事每件事都影响另一件Agent的失败告诉你环境缺少什么更好的环境让管理更顺畅。五、立即可行的行动清单如果你也想开始实践Harness Engineering可以从这五件事做起开始实践Harness Engineering把需求改写成验收标准把知识沉到仓库把界面和观测系统开放给智能体把边界编码成规则把清理当成持续任务可验证的结果定义版本化与检索UI/日志/指标/trace可见性机械化执行日常清扫防熵增高效可控的AI Agent开发把需求改写成验收标准。少一点“做个XX功能”多一点可验证的结果定义。把知识沉到仓库。核心规则、架构原则、质量标准、执行计划要能被版本化与检索而不是只存在聊天记录。把界面和观测系统开放给智能体。没有UI、日志、指标、trace的可见性智能体只能“猜”。把边界编码成规则。架构约束、命名约定、口味偏好、可靠性要求能机械化就不要靠口头提醒。把清理当成持续任务。AI生成会放大效率也会放大坏模式。没有日常清扫熵增只会越来越快。六、未来展望Harness将成为新的服务模板Martin Fowler提了一个比较有意思的判断大多数组织只有两三个主要技术栈。未来团队可能会从一组预制Harness中选择就像今天的服务模板Service Templates帮助团队在“黄金路径”上实例化新服务。Harness模板可能包含自定义Linter规则结构测试基础上下文和知识文档额外的上下文提供者预配置的CI/CD管道结语重新定义软件工程Harness Engineering不仅是一套方法论更是一种工程思维的升级。它让我们明白AI Agent不是“替代人类”而是“解放人类”而人类工程师的核心价值终将从“代码的生产者”转变为“工程体系的设计者与守护者”。未来工程师当然仍然需要懂代码但稀缺性会越来越多地落在另外几种能力上业务抽象、系统设计、评估框架、上下文工程、工具编排、边界治理。写代码这件事不会消失只是越来越像电力时代的“拧螺丝”一样被纳入更高层的系统调度之中。参考文章https://zhuanlan.zhihu.com/p/2014014859164026634https://luckysnail.cn/posts/post-104https://zhuanlan.zhihu.com/p/2011280143604274363https://post.smzdm.com/p/aeo7l0n4/https://blog.csdn.net/u013970991/article/details/158503060

深入理解Harness Engineering：当AI Agent让代码不再稀缺，工程师的价值在哪里？

最新文章

生成的actor 依次执行命令

完整指南：5分钟掌握Dell G15开源散热控制神器tcc-g15

关于在VMware虚拟机中安装openEuler系统和opengauss数据库部分问题的解决。

现在不掌握MoE，半年后将无法参与主流大模型迭代——2026奇点大会技术白皮书核心结论首发

MATLAB代码：基于主从博弈的电热综合能源系统DE算法优化程序

京东商品 API（item_get）在电商项目中的核心应用与避坑指南 —— 从实战案例看接口价值与风险边界

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

PingCraft：从需求文档到可追踪工作项的 Agent 实践之路币

别再手动调参了！用Docker+TartanCalib一键搞定单目相机标定（Ubuntu 20.04保姆级教程）

AxThread：嵌入式轻量级异步任务调度库

Switch_lib：面向继电器控制的轻量级数字引脚时序管理库

如何免费永久使用IDM：2024最新激活脚本终极指南

SEN66多参数空气质量传感器嵌入式集成指南

Flutter 入门第三课：核心基础 UI 组件（Image TextField Button）

高光谱成像基础（十二）光谱重建（Spectral Reconstruction）姑

Bitbucket实战：如何高效管理代码分支与.gitignore文件配置技巧

深入剖析Ultralytics中RT-DETR的RepC3模块维度匹配问题

别再只调参了！用Python给CFD/CAE仿真结果加个‘AI修正器’，精度提升看得见

你的SSH密钥可能已经过期了细