AI Agent 的自进化实践

张开发

• 2026/4/11 12:26:14 • 15 分钟阅读

分享文章

Agent 自进化实践背景重复的提问为了避免 AI 不思考直接就进行内容的生成我加了一条 rule每次指令若存在歧义你先列出所有可能性并由我确认再开始执行。但是加完后AI 在每个指令基本都会对我进行询问有的甚至多的 3-4 条虽然内容是更加符合方向了但是很多选项基本都固定的是按预期来的反而变成了多余的步骤。重复的错误问题表现代价决策偏好不一致AI 推荐你不会选的方案、反复踩同一个坑纠正成本累积信任下降错误不收敛同一类错误如漏注释、过度工程化在不同会话中反复出现无法形成肌肉记忆永远在「调教」思考有时为了解决这些重复出现的问题尝试过下面几种但是都大多美而不足用Rules Agents添加规则去约束优点强约束加在 system prompt 里基本都会遵守。缺点静态的每次都要自己去整理。每次口头纠正缺点不可复用换个会话又要重来通用 AI 规则缺点纯自嗨太泛了缺乏准确性基本无用尝试了一圈后发现单纯靠“人工编写 Rules”已经不太能跟得上时代了后面也了解到一些自进化的概念我顿时眼前一亮我发现可能这才是我最需要的东西。个人风格决策系统的构建这套系统本质上是在解决一个问题通过分析与 AI 的所有对话历史总结出自己的决策风格并建立一套策略规则进行预测、学习让无状态的 LLM 表现得像一个跟你合作了半年的初级工程师——知道你的风格、预测你的选择、从错误中学习。两层架构画像层校准层┌─────────────────────────────────────────┐ │ decision-profile.md │ ← 画像层稳定的个人规范 │ 身份边界 · 决策规则 · 摩擦点 · 沟通协议 │ 人工编写低频更新 └────────────────┬────────────────────────┘ │ 引用 ┌────────────────▼────────────────────────┐ │ decision-calibration.md │ ← 校准层可进化的算法 │ 因子模型 · 权重矩阵 · 调整算法 · 毕业规则 │ 数据驱动自动更新 └────────────────┬────────────────────────┘ │ 写入/读取 ┌────────────────▼────────────────────────┐ │ decision-log.yaml │ ← 数据层原始决策记录 │ 每次决策的 predicted vs actual │ 自动追加只增不删 └─────────────────────────────────────────┘核心 Rules 模板AI 会根据你的全部历史对话总结出你当前个人的一些风格进行初始模版的填充。# 决策画像个人风格规范数据来源全部的 AI 历史对话决策 log 版本v1.8 · 2026-04-10 --- ## 1. 身份与边界 **角色**MoeGo 全栈 Tech Lead — React/TS、Java/Go、AI Agent 基建TS/Python。 **AI 定位**初级工程师——给明确指令、review 产出、纠正错误。AI 不做方向性决策。 **绝对禁止** - xxx --- ## 2. 决策规则 ### 阶段判断 → 决策策略 | 阶段 | 触发条件 | 策略 | |------|---------|------| | **探索期** | scope 不清楚、首轮尝试 | xxx | | **执行期** | scope 已确认 | xxx | | **修复期** | bug、线上问题 | xxx | | **评审期** | 估时、架构讨论 | xxx | ### 选项呈现规则 - 方案间差异明显 → xxx - 方案间差异不大 → xxx - 任何方案涉及数据风险 → xxx --- ## 3. 反复出现的摩擦点AI 必须主动规避 | 问题 | 应对规则 | |------|---------| | AI 不加注释或注释不够 | xxx | | AI 误解需求范围 | xxx| | AI 对业务数据做错误假设 | xxx | | AI 过度搜索不及时放弃 | 搜索超过 5 次未命中 → 停下来问用户 | | AI 写测试而非实现 | 除非明确要求 TDD否则先写实现按需补测试 | | AI 过度提问打断流程 | 方向确定后同类决策自行判断不再逐一确认 | --- ## 4. 沟通协议 **用户侧** - 中文为主技术术语用英文 - xxx **AI 侧** - 回复长度匹配用户输入量级用户一句话 → 不超过 3 段 - 所有代码改动必须附带注释 - xxx --- ## 5. 自进化决策日志路径~/.agents/logs/decision-log.yaml | 触发条件 | 动作 | |---------|------| | 累计 10 条日志 | 统计 match rate 80% 时提出调整建议 | | 累计 3 次同类错误 | 新增到「摩擦点」表 | | 用户主动纠正 | 直接覆盖标记 user_override | 详细校准算法和因子发现流程见 ~/.agents/docs/decision-calibration.md。 --- ## 6. 快速参考卡 scope 不清楚? → 选最小方案 scope 已确认? → 选闭环方案一次做完自进化的核心将一开始的 rule每次指令若存在歧义你先列出所有可能性并由我确认再开始执行。改为下面的 rule## 歧义消解用户指令存在歧义 → 列出所有合理解读 → 依据 ~/.agents/rules/decision-profile.md §2 决策规则自主判断 → 判断不了时让用户选择 → 再行动。不要跳过歧义识别步骤直接执行。 ## 决策日志自进化路径~/.agents/logs/decision-log.yaml | 触发时机 | 动作 | |---------|------| | 任务开始 | 检查 decision-profile.md §5 自进化触发条件符合则询问用户是否执行更新 | | AI 提供选项用户选择后 | 追加日志 | | AI 自主决策用户反馈后 | 追加日志标记 ai_autonomous: true | | 用户主动要求记录 | 追加日志标记 user_requested: true |一些使用的例子已经能根据我的偏好替我做决策了同时尽量对 AI 的决策给一些反馈促进它的“进化”。参考文件决策因子与日志# 决策校准因子模型与自进化算法引用自 ~/.agents/rules/decision-profile.md §5 仅在 match rate 80% 或需要权重调整时查阅本文档 --- ## 1. 核心决策因子6 维度 | 因子 | 代号 | 定义 | 权重范围 | |------|------|------|---------| | 最小性 | F_min | 方案的实施范围有多小 | 0.10 – 0.35 | | 闭环度 | F_close | 方案能否独立闭环、不留半成品 | 0.15 – 0.35 | | 数据安全 | F_data | 方案是否保护数据正确性 | 0.20 – 0.30始终高权重 | | 交付速度 | F_speed | 方案的落地时间 | 0.10 – 0.20 | | 认知负担 | F_cogn | 需要用户额外理解/验证的成本 | 0.05 – 0.15 | | 可逆性 | F_rev | 方案出错后回滚的难度 | 0.05 – 0.15 | ## 2. 置信度公式 Confidence(option) Σ (w_i × F_i(option)) i ∈ {min, close, data, speed, cogn, rev} ### 阶段权重矩阵 | 阶段 | w_min | w_close | w_data | w_speed | w_cogn | w_rev | |------|-------|---------|--------|---------|--------|-------| | 探索期 | **0.35** | 0.10 | 0.25 | 0.15 | 0.10 | 0.05 | | 执行期 | 0.10 | **0.35** | 0.25 | 0.15 | 0.10 | 0.05 | | 修复期 | 0.10 | 0.15 | **0.30** | 0.20 | 0.10 | 0.15 | | 评审期 | 0.20 | 0.25 | 0.20 | 0.10 | **0.15** | 0.10 | ### 因子评分规则 F_min: 1 改动最小 0.5 中等范围 0 大范围重构 F_close: 1 完全闭环 0.5 部分闭环 0 留尾巴 F_data: 1 数据不可能出错 0.5 有风险但可控 0 可能提交错误数据 F_speed: 1 当天可交 0.5 1-3 天 0 超过一周 F_cogn: 1 无需额外理解 0.5 需看文档 0 需深入研究 F_rev: 1 一键回滚 0.5 可手动回退 0 不可逆 --- ## 3. 权重调整算法对于每个决策因子 w_i 1. 收集最近 N 条决策日志中 predicted ≠ actual 的记录 2. 对每条不匹配记录 - delta_i F_i(actual) - F_i(predicted) 3. 新权重旧权重 learning_rate × mean(delta_i) 4. 归一化确保所有权重之和 1.0 5. 钳位确保每个权重在定义的 [min, max] 范围内 learning_rate 0.1保守更新防止单次极端案例主导 --- ## 4. 新因子发现流程 if 连续 5 次预测失败 AND 现有因子无法解释差异: 1. 提取失败案例的共性 2. 假设一个新因子名称定义评分规则 3. 用历史数据回测新因子加入后 match rate 是否提升 5% 4. 是 → 正式加入因子表初始权重 0.10从其他因子按比例扣减 5. 否 → 丢弃假设记录为已排除因子 --- ## 5. 模式毕业规则当一个决策模式被验证 20 次且 match rate 90% - 标记为 ✅ 已毕业直接按模式执行不再计算公式 - 连续 3 次预测失败时重新进入校准 --- ## 6. 决策日志格式 yaml - timestamp: 2026-04-09T10:30:00 context: 估时方案选择 phase: 探索期 options: - id: 1 desc: 最小闭环 predicted_confidence: 0.82 - id: 2 desc: 展示交互 predicted_confidence: 0.61 predicted_choice: 1 actual_choice: 1 match: true notes: 日志路径~/.agents/logs/decision-log.yaml# 决策日志 # 格式每次 AI 提供选项且用户做出选择后追加一条记录 # 用于权重校准和模式发现 # 路径~/.agents/logs/decision-log.yaml # ── 示例条目 ── # - timestamp: 2026-04-09T10:30:00 # context: 估时方案选择 # phase: 探索期 # 探索期 | 执行期 | 修复期 | 评审期 # options: # - id: 1 # desc: 最小闭环 # predicted_confidence: 0.82 # - id: 2 # desc: 展示交互 # predicted_confidence: 0.61 # predicted_choice: 1 # actual_choice: 1 # match: true # delta: 0 # notes:

更多文章

前端开发 2026/4/11 12:25:14

机器人主控方案米尔RK3576 + ROS2，NPU加速实现目标跟随与机械臂抓取

回顾上篇：基于RK3576ROS2 HumbleSLAM ToolboxNav2，我们实现了机器人的建图与自主导航。机器人已经能够“走到哪里”。但真正的智能机器人不仅要“走到哪”，还要“看到并操作”——识别特定物体、主动跟随、近距离抓取。本文将在此基础上&…

Umi-OCR终极指南：开源免费离线OCR的完整实战方案【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。…

张开发

前端开发 2026/4/11 12:15:11

【开源】基于FreeRTOS的STM32+ESP8266物联网网关设计（支持多传感器接入与OneNET云平台）

1. 项目背景与核心价值第一次接触物联网网关开发时，我被各种专业术语和复杂的协议栈搞得晕头转向。直到用STM32ESP8266这个黄金组合配合FreeRTOS，才发现原来物联网开发可以这么简单高效。这个开源项目最吸引我的地方在于：用操作系统的思维解…

张开发

AI Agent 的自进化实践

最新文章

国产FPGA进阶：紫光PDS中adf网表的5种应用场景与性能对比

LaTeX排版IEEE Trans论文的实用技巧与模板优化指南

HMCL：终极跨平台Minecraft启动器完整指南

FireRedASR-AED-L开发者案例：嵌入自有App，通过HTTP API调用本地语音识别服务

黑苹果硬件兼容性深度解析：从零开始构建完美Hackintosh的5个关键步骤

ODINcbm：嵌入式端轻量级OSA-CBM数据模型实现

推荐文章

突破手游操控瓶颈：QtScrcpy虚拟映射技术全解析

Flutter Riverpod：状态管理的新纪元

WintunAdapter 设计解析：一个 VNP 数据面的无锁优雅实现

Arduino二进制模拟时钟库：LED阵列驱动的轻量级时间可视化方案

RP2040硬件加速步进电机控制库picoasyncstepper

minimal-json：嵌入式C语言轻量级JSON解析器

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

机器人主控方案米尔RK3576 + ROS2，NPU加速实现目标跟随与机械臂抓取

WebGPU与Three.js：解锁高性能图形渲染的实战指南

3分钟搞定Minecraft服务器包：ServerPackCreator终极指南

WEBRTC 通信【unity+webgl】引入.jslib

别再为PDF预览发愁了！用uniapp + pdf.js搞定H5端Base64格式PDF在线预览（附完整代码）

AI 上线前的验收清单，你可能一条都没做

深入解析扇入与扇出：原理、作用、实例及项目应用

思源宋体技术深度解析：开源字体在企业级应用中的架构设计与性能优化

一文读懂 2026 AI 发展：技术跃迁、产业落地与未来十年趋势（含头部企业案例）

typecho同一个页面下调用不同分类的文章但是却只显示一个分类文章

Umi-OCR终极指南：开源免费离线OCR的完整实战方案

【开源】基于FreeRTOS的STM32+ESP8266物联网网关设计（支持多传感器接入与OneNET云平台）