Hermes Agent 架构拆解：记忆、检索与Skill如何构建自进化系统

张开发

• 2026/4/20 0:10:04 • 15 分钟阅读

分享文章

大多数 AI Agent 本质上只是记性不错但没有常识的临时工。他们能翻看过去的聊天笔记但内核从未真正成长。任务结束经验清零下次再来它对你的习惯依然一窍不通。Hermes Agent 走了一条截然不同的路它不仅记住了你说过什么还把它做过的每一件复杂的事转化为可复用的技能并随着使用时间的增长变得越来越擅长为你服务。一、Hermes 又火了但这一次问题已经变了最近如果你在关注Agent很难绕开 Hermes Agent。但有意思的是这一波讨论其实出现了一个明显的错位大多数人仍然在用“工具升级”的视角理解它比如多了多少工具、支持多少平台、自动化程度有多高甚至把它当作“下一个 OpenClaw”。如果你停在这里会得出一个完全错误的结论。因为 Hermes 真正解决的从来不是“Agent能不能更强”而是一个更底层的问题Agent到底能不能形成“经验”****而不是反复消耗上下文。过去两年“有记忆的Agent”几乎成了行业共识。但如果你仔细拆开会发现所谓“记忆”其实只有两种实现路径要么把历史对话不断堆进prompt要么通过向量数据库做RAG检索。看起来都在“记忆”但本质上只是“存储”。问题在于这两种方式都没有解决一件真正关键的事情知识有没有被压缩成可复用的结构**。**当你让一个Agent记住100次“我们用PostgreSQL”一个好的系统应该只保留“我们用PostgreSQL”这一条稳定事实而不是在下一次检索时返回100条冗余信息。否则系统不是在学习而是在变得越来越臃肿。Hermes的意义就在于它选择了第三条路不堆上下文而是构建一个会自我压缩、自我演化的认知系统。二、一个更准确的抽象Hermes不是Agent而是“运行中的系统”理解Hermes最容易犯的错误是把它当成一个“更强的Agent”。但如果你从工程视角看它更接近一个长期运行的系统而不是一次性调用的工具。在传统Agent中无论是 Claude Code 这样的交互工具还是 OpenClaw 这种配置型框架它们的共同点是每一次执行本质上是一个独立的推理过程。上下文可以延续但系统本身不会发生结构变化。你今天纠正它的错误并不会改变它明天的默认行为。而Hermes的设计前提完全不同系统是持续运行的状态是可累积的行为是可以被修改的。换句话说它不是在优化“这一次回答”而是在优化未来****所有类似问题的默认解法。这就是为什么很多人第一次用Hermes并不会觉得它“明显更强”但用几天之后会出现一个明显的体验跃迁它开始变得“顺手”。三、核心主线Hermes其实在做三件事如果把整个系统压缩成一句话Hermes在做的事情其实非常简单把信息压缩成结构把结构转化为规则再让规则反过来约束未来行为。为了做到这一点它在工程上拆成了三层记忆系统压缩信息检索系统按需调度信息Skill系统把信息变成规则这三层不是功能模块而是三种不同的“时间尺度”。四、第一层记忆系统——不是“记住”而是“压缩”4.1 MEMORY.md / USER.md刻意受限的长期记忆Hermes的长期记忆实现非常“反常识”它不是数据库而是两个Markdown文件MEMORY.md记录环境事实、项目经验、操作规范USER.md记录用户偏好、行为模式、沟通风格它们通常位于~/.hermes/memories/。而最关键的点是总容量被严格限制在约1300 token。这不是限制能力而是刻意设计。因为一旦允许无限增长系统最容易做的事情就是“全部记录”而不是“选择性保留”。最终结果不是更聪明而是更混乱。Hermes通过容量约束强迫系统必须完成一个更高级的操作信息筛选信息压缩。4.2 Frozen Snapshot性能与一致性的经典取舍每次会话开始时这两个文件会被一次性注入系统prompt并在整个会话中保持不变。即使中途更新记忆也不会影响当前会话而是在下一次会话才生效。这个设计背后有两个核心动机第一是性能。固定前缀意味着可以利用LLM的prefix cache从而显著降低token成本。第二是一致性。如果记忆在会话中动态变化模型的行为将变得不可预测。代价也很明确记忆更新是“延迟生效”的。这实际上是一个非常典型的系统设计选择牺牲一点实时性换取整体稳定性和成本可控。4.3 代理自己管理记忆从“存储”变成“知识管理”Hermes的记忆并不是被动写入的而是由Agent主动管理。它通过memory工具支持三种操作addreplaceremove 没有read因为记忆已经在prompt中更关键的是当记忆接近上限时系统会主动进行“压缩”例如把多条零散事实整合成一条结构化描述。这意味着Hermes不是在做“日志记录”而是在做持续的知识整理。五、第二层Session Search——为什么不是RAG长期记忆解决的是“最重要的信息”但大量历史对话仍然存在。Hermes的做法是所有对话写入 SQLite建立 FTS5 全文索引按需检索而不是全量加载5.1 为什么不用向量数据库在大多数Agent系统中“长期记忆”的默认实现路径几乎是统一的把历史数据embedding化然后通过向量数据库进行语义检索。这种方式在知识问答类场景中非常有效但Hermes刻意绕开了这条路径转而使用SQLite FTS5进行全文检索这背后并不是技术保守而是对问题本质的重新定义。Hermes这一层要解决的并不是“找语义相似的内容”而是“找曾经发生过的具体行为”。例如“上周我们是如何修复某个bug的”、“某个接口设计当时是怎么讨论的”这些问题的本质更接近日志回溯而不是知识匹配。在这种场景下向量检索的模糊性反而成为负担因为它可能返回语义接近但上下文错误的结果而全文检索则可以提供更强的精确性和可解释性。更重要的是全文检索避免了embedding生成、更新和存储的额外成本使得整个系统可以在本地稳定运行而不会引入额外的基础设施依赖。从工程角度看这是一种典型的“问题驱动技术选择”而不是“技术驱动问题设计”。5.2 核心思想历史不是上下文而是工具Hermes不会把历史对话全部塞进prompt而是**只有在需要时才把相关片段调入上下文。这就是按需检索机制。**这一点看似简单但实际上改变了上下文的基本结构。在传统设计中历史信息一旦进入上下文就会持续占用token预算并在后续推理中不断产生干扰而Hermes通过按需检索把历史从“默认参与者”变成“条件参与者”只有在被判断为有价值时才进入推理链路。这种机制的核心价值在于它把上下文从“信息堆积容器”转变为“高密度决策空间”。模型不再被动接收所有历史而是通过调用工具主动选择需要的信息从而提升推理质量和稳定性。这带来两个关键好处token成本稳定信息密度更高本质上它把“记忆”从上下文中剥离出来变成了一个可调用系统。5.3 工作记忆 vs 会话检索两种完全不同的信息职责Hermes中一个非常容易被忽略但极其关键的设计是对“记忆”的职责划分。工作记忆MEMORY.md / USER.md承担的是“永远在场的关键事实”而会话检索承担的是“可能有用的历史上下文”。前者必须稳定、精炼且高度可靠因为它直接参与每一次推理后者则可以是冗余、庞大甚至不完全结构化因为它只有在必要时才会被调用。这种分工使得系统既能够保持长期一致性又不会因为历史积累而逐渐变慢或变乱。从系统设计角度看这一步完成的是一次重要的抽象分离“状态”与“历史”不再混在一起而是被放入不同的系统中管理。六、第三层Skill系统——真正的“进化引擎”如果说前两层解决的是“记什么”和“怎么找”那么Skill系统解决的是最关键的问题如何把经验变成可复用的规则。6.1 Skill的本质程序性记忆在Hermes中Skill并不是简单的prompt模板而是一种更接近“程序”的结构化知识单元。一个完整的Skill通常不仅包含任务描述还包括执行步骤、关键决策点、常见错误以及验证方式这使得它更像是一份“操作手册”而不是一段提示词。这种设计的关键意义在于它把原本依赖模型即时推理的过程转化为可以被直接调用的执行路径。换句话说Skill的存在不是为了让模型“思考得更好”而是为了让模型“少思考一部分已经被验证过的内容”。这对于复杂任务尤为重要因为推理路径越长不确定性就越高而Skill本质上是在缩短这条路径。6.2 Skill如何产生自动经验提炼Hermes不会依赖开发者手动编写所有Skill而是通过任务执行过程中的分析自动判断哪些经验具有复用价值。当一个任务涉及多步操作、具有明确结构并且在执行过程中经过用户确认或修正时系统就会倾向于将其抽象为Skill。这个过程本质上是在做一件非常关键的事情**把一次性的成功路径从“偶然事件”转化为“可复用能力”。**一旦这一转化完成后续类似任务就不再需要从零推理而是可以直接调用已有结构。从工程角度看这一步是Hermes区别于大多数Agent的分水岭因为它意味着系统开始具备“能力积累”的机制而不是仅仅依赖模型能力。6.3 Skill自我改进系统真正开始“学习”Skill真正的价值并不在于第一次生成而在于后续的持续优化。在Hermes中用户的每一次修正都有机会被写回到Skill本身从而改变未来所有类似任务的默认执行方式。这与传统Agent形成鲜明对比。在大多数系统中反馈只影响当前结果而不会改变未来行为而在Hermes中反馈会进入系统结构成为新的约束条件。这意味着系统的行为并不是固定的而是在不断被“重写”。从系统角度看这构成了一个完整闭环执行 → 反馈 → 规则更新 → 再执行。这个闭环一旦稳定运行系统的行为就会逐渐收敛到一套对用户最优的路径而不是每次都重新探索。6.4 Progressive Disclosure规模化的关键随着Skill数量增长最大问题是上下文爆炸。Hermes的解决方案是三层加载Level 0Skill索引Level 1完整SkillLevel 2细节文件只有在相关时才深入加载。这本质上是在做一件事把“知识调度”变成模型的一部分能力。这一设计的关键不仅在于节省token更在于把“知识选择权”交给模型本身。系统不再预先决定哪些知识重要而是让模型在具体任务中动态做出判断从而提升整体灵活性。七、Agent Loop一个持续运行的学习闭环把前面所有模块串起来就是Hermes的核心循环执行任务判断是否写入记忆是否生成Skill是否优化Skill更新系统结构下次任务复用这个循环不是人为触发的而是持续运行的。7.1 从“执行任务”到“更新系统”的隐式循环当记忆系统、检索系统和Skill系统协同工作时Hermes的执行过程已经不再是简单的“输入-输出”而是一个持续运行的循环。在每一次任务完成之后系统都会隐式地进行一系列判断哪些信息值得进入长期记忆哪些历史需要被保留但不常驻当前执行路径是否具有复用价值以及是否需要生成或更新Skill。这些判断并不是一次性完成的而是在多次任务中逐渐收敛形成稳定的行为模式。换句话说系统并不是在一次任务中变聪明而是在一系列任务中逐渐改变自己的结构。7.2 下一次任务不是重新开始而是“带着历史出发”在下一次任务开始时Hermes并不是从零开始而是带着已经压缩过的记忆、可检索的历史以及结构化的Skill进入执行。这意味着系统的初始状态已经发生改变从而影响整个推理过程。这种变化并不一定体现在“更高的单次表现”但会体现在“更低的错误率”和“更稳定的执行路径”上。随着循环不断进行系统逐渐从“探索状态”过渡到“收敛状态”这也是用户感知到“越来越顺手”的根本原因。八、一个关键认知Hermes为什么“越用越好用”现在可以回答最核心的问题Hermes为什么会进化不是因为模型更强而是因为8.1 它在压缩信息而不是堆积信息传统Agent历史越来越多。Hermes信息越来越精。Hermes通过容量限制和结构化记忆持续对信息进行压缩使得真正重要的事实能够长期保留而冗余信息被过滤。这种压缩过程使得系统不会因为历史增长而变得臃肿反而会逐渐提升信息密度。8.2 它在把经验变成约束和规则通过Skill系统Hermes把一次次成功经验转化为规则并嵌入系统结构中。这意味着未来的行为不再依赖即时推理而是优先执行已经验证过的路径从而减少不确定性。8.3. 它在减少搜索空间普通Agent每次重新推理Hermes优先走已验证路径在传统Agent中每一次任务都需要在巨大的解空间中重新搜索而Hermes通过Skill和记忆将搜索空间逐渐收敛到一组高质量路径上。这不仅提升效率也提高了结果的稳定性。九、对比再深化三类Agent的本质差异从实现角度看Claude Code实时交互系统。这类系统的核心在于模型能力每一次输出都是即时推理的结果优势是灵活劣势是缺乏长期一致性。OpenClaw配置驱动系统。通过人工定义规则实现一定程度的稳定性但规则的生成与维护仍然依赖人类系统本身不会演化。Hermes Agent自演化系统。规则可以在运行过程中被系统自身修改这使得它不再只是执行逻辑而是逐渐参与逻辑的生成与优化。本质差异只有一句话规则是谁在写。十、最后Hermes不是AI能力升级而是系统范式变化Hermes并没有引入复杂的新技术而是通过一系列非常克制的工程设计把“学习”嵌入到系统结构中。文件系统、全文检索、结构化文本这些基础组件在合理组合之后形成了一个可以持续演化的系统。这意味着AI系统第一次具备了时间上的连续性不再只是一次次独立计算而是一个可以在使用过程中逐渐改变自身行为的实体。也正因为如此Hermes真正的价值并不在于它当前能做什么而在于它证明了一种新的可能AI系统可以通过运行本身变得越来越接近“最适合你”的状态。如果说过去的Agent是在“模拟人类做事”那么Hermes开始在做另一件事让系统像人一样形成经验并改变自己。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章

前端开发 2026/4/20 0:09:58

RAG技术深度解析：召回与重排技术实战指南

一、召回技术原理与实现在前三篇中，我们完成了离线阶段的全部准备工作：文档被分块、向量化、存入数据库并建好索引。现在用户提了一个问题——接下来系统要在毫秒级完成两件事：召回（快速找到候选证据）和重排&#xf…

怎么部署OpenClaw？2026年华为云部署OpenClaw配置Coding Plan喂奶级流程。OpenClaw（前身为Clawdbot/Moltbot）作为开源、本地优先的AI助理框架，凭借724小时在线响应、多任务自动化执行、跨平台协同等核心能力，成为个人办…

张开发

前端开发 2026/4/19 23:17:22

【AGI合规生死线】：2026奇点大会划定的4个法律红线，超期未整改将触发自动审计

第一章：2026奇点智能技术大会：AGI的法律框架 2026奇点智能技术大会(https://ml-summit.org) 全球AGI治理共识的里程碑 2026奇点智能技术大会首次将通用人工智能（AGI）的法律人格认定、责任归属与跨司法管辖区监管协同列为最高优先…

张开发

Hermes Agent 架构拆解：记忆、检索与Skill如何构建自进化系统

最新文章

AWDP新手必看：从防御异常到满分防御，我的PHPStudy本地靶场搭建与实战复盘

手把手教你用FS8A15S8设计小风扇：从电路图到实现多档升压（5.5V/6.8V/8V）

SpringBoot+Vue编程语言学习辅导网站源码+论文

RevokeMsgPatcher 2.1：Windows平台防撤回终极指南，告别消息撤回烦恼！

7岁、10岁、14岁开始学C++，收益与必要性有何不同？

圆弧长度计算公式详解

推荐文章

嵌入式工程师避坑指南：RK817 PMU在无电池场景下的5个关键配置点

保姆级教程：在S32K312上配置EMIOS0生成PWM信号（附完整代码）

SQL嵌套查询导致内存溢出_改写为连接查询的方法

生化4重制版0xc000007b错误快速修复 2026通用指南

保姆级教程：用Python+Dlib+OpenCV搭建一个实时人脸识别系统（附完整代码）

CSS Sprites：从性能优化到现代前端实践的全景解析

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

RAG技术深度解析：召回与重排技术实战指南

【倒计时87天】2026奇点大会唯一闭门议程曝光：AGI记忆持久化标准草案（ISO/IEC JTC 1/SC 42 WG12内部修订版首次流出）

别再死记硬背A*算法了！用Python实战8数码问题，手把手教你理解曼哈顿距离的威力

CSS如何制作导航栏平滑滚动到锚点位置_使用scroll-behavior平滑属性

Cats Blender插件：VRChat模型优化的革命性自动化解决方案

AGI供应链优化不是算法竞赛，而是“物理世界+商业逻辑+实时反馈”的三重耦合（仅限头部制造/零售CTO参阅）

TQVaultAE：泰坦之旅装备管理的革命性解决方案，告别仓库空间不足的烦恼

手把手教你用Chrome/Firefox开发者工具一眼看穿网站用的是DV、OV还是EV证书

【颠覆性标准】：SITS2026不是又一个LLM榜单——它首次引入动态情境迁移率（DSR≥0.68）与跨模态意图保真度（CIF≥91.3%）双硬指标

从Actor模型到实战：Skynet轻量级游戏服务器框架的设计哲学与核心机制

怎么部署OpenClaw？2026年华为云部署OpenClaw配置Coding Plan喂奶级流程

【AGI合规生死线】：2026奇点大会划定的4个法律红线，超期未整改将触发自动审计