AI Agent 的自进化实践

张开发
2026/4/11 12:26:14 15 分钟阅读

分享文章

AI Agent 的自进化实践
Agent 自进化实践背景重复的提问为了避免 AI 不思考直接就进行内容的生成我加了一条 rule每次指令若存在歧义你先列出所有可能性并由我确认再开始执行。但是加完后AI 在每个指令基本都会对我进行询问有的甚至多的 3-4 条虽然内容是更加符合方向了但是很多选项基本都固定的是按预期来的反而变成了多余的步骤。重复的错误问题表现代价决策偏好不一致AI 推荐你不会选的方案、反复踩同一个坑纠正成本累积信任下降错误不收敛同一类错误如漏注释、过度工程化在不同会话中反复出现无法形成肌肉记忆永远在「调教」思考有时为了解决这些重复出现的问题尝试过下面几种但是都大多美而不足用Rules Agents添加规则去约束优点强约束加在 system prompt 里基本都会遵守。缺点静态的每次都要自己去整理。每次口头纠正缺点不可复用换个会话又要重来通用 AI 规则缺点纯自嗨太泛了缺乏准确性基本无用尝试了一圈后发现单纯靠“人工编写 Rules”已经不太能跟得上时代了后面也了解到一些自进化的概念我顿时眼前一亮我发现可能这才是我最需要的东西。个人风格决策系统的构建这套系统本质上是在解决一个问题通过分析与 AI 的所有对话历史总结出自己的决策风格并建立一套策略规则进行预测、学习让无状态的 LLM 表现得像一个跟你合作了半年的初级工程师——知道你的风格、预测你的选择、从错误中学习。两层架构画像层 校准层┌─────────────────────────────────────────┐ │ decision-profile.md │ ← 画像层稳定的个人规范 │ 身份边界 · 决策规则 · 摩擦点 · 沟通协议 │ 人工编写低频更新 └────────────────┬────────────────────────┘ │ 引用 ┌────────────────▼────────────────────────┐ │ decision-calibration.md │ ← 校准层可进化的算法 │ 因子模型 · 权重矩阵 · 调整算法 · 毕业规则 │ 数据驱动自动更新 └────────────────┬────────────────────────┘ │ 写入/读取 ┌────────────────▼────────────────────────┐ │ decision-log.yaml │ ← 数据层原始决策记录 │ 每次决策的 predicted vs actual │ 自动追加只增不删 └─────────────────────────────────────────┘核心 Rules 模板AI 会根据你的全部历史对话总结出你当前个人的一些风格进行初始模版的填充。# 决策画像个人风格规范 数据来源全部的 AI 历史对话 决策 log 版本v1.8 · 2026-04-10 --- ## 1. 身份与边界 **角色**MoeGo 全栈 Tech Lead — React/TS、Java/Go、AI Agent 基建TS/Python。 **AI 定位**初级工程师——给明确指令、review 产出、纠正错误。AI 不做方向性决策。 **绝对禁止** - xxx --- ## 2. 决策规则 ### 阶段判断 → 决策策略 | 阶段 | 触发条件 | 策略 | |------|---------|------| | **探索期** | scope 不清楚、首轮尝试 | xxx | | **执行期** | scope 已确认 | xxx | | **修复期** | bug、线上问题 | xxx | | **评审期** | 估时、架构讨论 | xxx | ### 选项呈现规则 - 方案间差异明显 → xxx - 方案间差异不大 → xxx - 任何方案涉及数据风险 → xxx --- ## 3. 反复出现的摩擦点AI 必须主动规避 | 问题 | 应对规则 | |------|---------| | AI 不加注释或注释不够 | xxx | | AI 误解需求范围 | xxx| | AI 对业务数据做错误假设 | xxx | | AI 过度搜索不及时放弃 | 搜索超过 5 次未命中 → 停下来问用户 | | AI 写测试而非实现 | 除非明确要求 TDD否则先写实现按需补测试 | | AI 过度提问打断流程 | 方向确定后同类决策自行判断不再逐一确认 | --- ## 4. 沟通协议 **用户侧** - 中文为主技术术语用英文 - xxx **AI 侧** - 回复长度匹配用户输入量级用户一句话 → 不超过 3 段 - 所有代码改动必须附带注释 - xxx --- ## 5. 自进化 决策日志路径~/.agents/logs/decision-log.yaml | 触发条件 | 动作 | |---------|------| | 累计 10 条日志 | 统计 match rate 80% 时提出调整建议 | | 累计 3 次同类错误 | 新增到「摩擦点」表 | | 用户主动纠正 | 直接覆盖标记 user_override | 详细校准算法和因子发现流程见 ~/.agents/docs/decision-calibration.md。 --- ## 6. 快速参考卡 scope 不清楚? → 选最小方案 scope 已确认? → 选闭环方案一次做完 自进化的核心将一开始的 rule每次指令若存在歧义你先列出所有可能性并由我确认再开始执行。改为下面的 rule## 歧义消解 用户指令存在歧义 → 列出所有合理解读 → 依据 ~/.agents/rules/decision-profile.md §2 决策规则自主判断 → 判断不了时让用户选择 → 再行动。 不要跳过歧义识别步骤直接执行。 ## 决策日志自进化 路径~/.agents/logs/decision-log.yaml | 触发时机 | 动作 | |---------|------| | 任务开始 | 检查 decision-profile.md §5 自进化触发条件符合则询问用户是否执行更新 | | AI 提供选项 用户选择后 | 追加日志 | | AI 自主决策 用户反馈后 | 追加日志标记 ai_autonomous: true | | 用户主动要求记录 | 追加日志标记 user_requested: true |一些使用的例子已经能根据我的偏好替我做决策了同时尽量对 AI 的决策给一些反馈促进它的“进化”。参考文件决策因子与日志# 决策校准因子模型与自进化算法 引用自 ~/.agents/rules/decision-profile.md §5 仅在 match rate 80% 或需要权重调整时查阅本文档 --- ## 1. 核心决策因子6 维度 | 因子 | 代号 | 定义 | 权重范围 | |------|------|------|---------| | 最小性 | F_min | 方案的实施范围有多小 | 0.10 – 0.35 | | 闭环度 | F_close | 方案能否独立闭环、不留半成品 | 0.15 – 0.35 | | 数据安全 | F_data | 方案是否保护数据正确性 | 0.20 – 0.30始终高权重 | | 交付速度 | F_speed | 方案的落地时间 | 0.10 – 0.20 | | 认知负担 | F_cogn | 需要用户额外理解/验证的成本 | 0.05 – 0.15 | | 可逆性 | F_rev | 方案出错后回滚的难度 | 0.05 – 0.15 | ## 2. 置信度公式 Confidence(option) Σ (w_i × F_i(option)) i ∈ {min, close, data, speed, cogn, rev} ### 阶段权重矩阵 | 阶段 | w_min | w_close | w_data | w_speed | w_cogn | w_rev | |------|-------|---------|--------|---------|--------|-------| | 探索期 | **0.35** | 0.10 | 0.25 | 0.15 | 0.10 | 0.05 | | 执行期 | 0.10 | **0.35** | 0.25 | 0.15 | 0.10 | 0.05 | | 修复期 | 0.10 | 0.15 | **0.30** | 0.20 | 0.10 | 0.15 | | 评审期 | 0.20 | 0.25 | 0.20 | 0.10 | **0.15** | 0.10 | ### 因子评分规则 F_min: 1 改动最小 0.5 中等范围 0 大范围重构 F_close: 1 完全闭环 0.5 部分闭环 0 留尾巴 F_data: 1 数据不可能出错 0.5 有风险但可控 0 可能提交错误数据 F_speed: 1 当天可交 0.5 1-3 天 0 超过一周 F_cogn: 1 无需额外理解 0.5 需看文档 0 需深入研究 F_rev: 1 一键回滚 0.5 可手动回退 0 不可逆 --- ## 3. 权重调整算法 对于每个决策因子 w_i 1. 收集最近 N 条决策日志中 predicted ≠ actual 的记录 2. 对每条不匹配记录 - delta_i F_i(actual) - F_i(predicted) 3. 新权重 旧权重 learning_rate × mean(delta_i) 4. 归一化确保所有权重之和 1.0 5. 钳位确保每个权重在定义的 [min, max] 范围内 learning_rate 0.1保守更新防止单次极端案例主导 --- ## 4. 新因子发现流程 if 连续 5 次预测失败 AND 现有因子无法解释差异: 1. 提取失败案例的共性 2. 假设一个新因子名称 定义 评分规则 3. 用历史数据回测新因子加入后 match rate 是否提升 5% 4. 是 → 正式加入因子表初始权重 0.10从其他因子按比例扣减 5. 否 → 丢弃假设记录为已排除因子 --- ## 5. 模式毕业规则 当一个决策模式被验证 20 次且 match rate 90% - 标记为 ✅ 已毕业直接按模式执行不再计算公式 - 连续 3 次预测失败时重新进入校准 --- ## 6. 决策日志格式 yaml - timestamp: 2026-04-09T10:30:00 context: 估时方案选择 phase: 探索期 options: - id: 1 desc: 最小闭环 predicted_confidence: 0.82 - id: 2 desc: 展示交互 predicted_confidence: 0.61 predicted_choice: 1 actual_choice: 1 match: true notes: 日志路径~/.agents/logs/decision-log.yaml# 决策日志 # 格式每次 AI 提供选项且用户做出选择后追加一条记录 # 用于权重校准和模式发现 # 路径~/.agents/logs/decision-log.yaml # ── 示例条目 ── # - timestamp: 2026-04-09T10:30:00 # context: 估时方案选择 # phase: 探索期 # 探索期 | 执行期 | 修复期 | 评审期 # options: # - id: 1 # desc: 最小闭环 # predicted_confidence: 0.82 # - id: 2 # desc: 展示交互 # predicted_confidence: 0.61 # predicted_choice: 1 # actual_choice: 1 # match: true # delta: 0 # notes:

更多文章