知识库别往System Prompt塞了！我用Skill Loading把3000 tokens压缩到100，省下66%成本

张开发

• 2026/4/7 3:22:48 • 15 分钟阅读

分享文章

知识库别往System Prompt塞了！我用Skill Loading把3000 tokens压缩到100，省下66%成本

上篇我们诊断了System Prompt膨胀病这篇给解药。用Skill Loading机制把3000 tokens的垃圾场变成100 tokens的图书馆60行代码实现知识按需加载API成本直接砍半。Skill Loading核心机制类比图书馆借书流程图书馆不会把所有书堆你桌上而是你知道有哪些书目录需要时去借按需加载看完归还卸载释放Skill Loading就是Agent的图书馆系统Skill LibraryHarnessAgentSkill LibraryHarnessAgent后续对话不携带Python知识分析任务需要Python知识load_skill(python)读取skills/python.md返回800 tokens知识通过tool_result注入基于知识完成任务代码实现60行核心逻辑# System Prompt保持精简只告知可以加载技能SYSTEMYou are a coding assistant. You can load specialized knowledge using load_skill tool. When to use skills: - Starting a new type of task - Unfamiliar with projects tech stack - Need specific domain knowledge Available skills can be listed with list_skills.# 添加技能管理工具TOOLSBASE_TOOLS[{name:list_skills,description:List all available skills in the skill library,input_schema:{type:object,properties:{}}},{name:load_skill,description:Load a specific skill to get domain knowledge,input_schema:{type:object,properties:{skill_name:{type:string,description:Name of skill to load}},required:[skill_name]}}]# Skill管理实现deflist_available_skills():列出所有可用技能读取skills/目录skills[]forskill_fileinPath(skills/).glob(*.md):first_lineskill_file.read_text().split(\n)[0]skills.append(f-{skill_file.stem}:{first_line})return\n.join(skills)defload_skill_content(skill_name:str)-str:加载技能文档内容skill_filePath(fskills/{skill_name}.md)ifnotskill_file.exists():returnfError: Skill {skill_name} not foundreturnskill_file.read_text()# Agent循环集成defagent_loop(messages:list):whileTrue:responseclient.messages.create(modelMODEL,systemSYSTEM,messagesmessages,toolsTOOLS,max_tokens4000)messages.append({role:assistant,content:response.content})ifresponse.stop_reason!tool_use:returnresults[]forblockinresponse.content:ifblock.typetool_use:ifblock.nameload_skill:# ⭐ 按需加载技能注入上下文skill_contentload_skill_content(block.input[skill_name])results.append({type:tool_result,tool_use_id:block.id,content:f Skill Loaded \n{skill_content}})else:results.append(execute_tool(block))messages.append({role:user,content:results})运行效果代码生成场景对比传统方式System PromptSYSTEMPython规范...JavaScript规范...Go规范...# 3000 tokens用户写一个Python脚本处理CSV 模型带着3000tokens上下文推理实际使用Python知识1000tokens 浪费2000tokens × 每轮调用Skill Loading方式SYSTEM可以加载技能...# 100 tokens用户写一个Python脚本处理CSV 模型load_skill(python)# 800 tokens模型处理任务# 精准使用800 tokens后续对话# 不携带Python知识实际对话示例User: 帮我写一个Python脚本处理CSV文件 Agent: 思考这是一个Python任务需要加载Python技能 load_skill(python) Loaded 800 chars of knowledge Agent: 根据Python技能我将使用pandas处理CSV... write_file: csv_processor.py Wrote 450 bytes User: 再用JavaScript实现同样功能 Agent: 思考需要切换技能 load_skill(javascript) Loaded 700 chars of knowledge Agent: 根据JavaScript技能我将使用csv-parse库...效果第一轮只加载Python知识第二轮只加载JavaScript知识没有知识混淆没有冗余开销给你的团队构建Skill库Skill文件格式设计# Python Development Standards ## Quick Reference - **Indent**: 4 spaces (no tabs) - **Line length**: 88 characters (Black formatter) ## Code Patterns ### Function Definition python def process_data( raw_data: dict[str, Any], options: ProcessingOptions | None None ) - ProcessedResult: Process raw data into structured format. if not raw_data: raise ValueError(raw_data cannot be empty)Common LibrariesWeb: FastAPI, Pydantic v2Data: Pandas 2.0, NumPy**设计原则** - 结构清晰模型能快速定位 - 示例驱动Show, dont tell - 长度适中500-2000 tokens ### 版本控制策略skills/├── python-v1.md # 基础版├── python-v2.md # 新增类型注解要求├── manifest.json # Skill元数据manifest.json:{“skills”: {“python”: {“current”: “python-v2”,“versions”: {“python-v2”: {“default”: true}}}}}## 避坑指南 **❌ 陷阱1Skill过大** markdown # Python Skill错误示例 - 包含Python、Django、Flask、FastAPI、NumPy、Pandas、PyTorch... - 总计10000 tokens✅ 解决方案技能拆分python-base.md # 基础语法800 tokens python-web.md # Web框架600 tokens python-ml.md # 机器学习1000 tokens❌ 陷阱2Skill冲突load_skill(python-legacy)# Python 2规范load_skill(python-modern)# Python 3规范# 冲突模型困惑✅ 解决方案命名空间# 明确指定版本skill:python version:3.11❌ 陷阱3忘记卸载前一个任务加载了Python后一个任务写JavaScript但Python知识还在上下文里干扰模型。✅ 解决方案任务边界清理defstart_new_task():# 新任务开始时只保留系统消息丢弃技能知识messages[msgformsginmessagesifmsg.get(role)system]总结知识管理的正确姿势Skill Loading解决了Agent开发的核心矛盾既要知识丰富支持各种技术栈、规范、最佳实践又要上下文精简避免知识过载导致的成本和质量问题成本对比前置加载$0.60/任务Skill Loading$0.20/任务节省66%这就像人类专家的查阅资料能力——不需要把所有知识记在脑子里而是知道去哪里找快速查阅应用到当前任务。互动投票你的技术栈有哪些可以做成SkillA. 编程语言规范Python/JavaScript/GoB. 框架指南Django/React/VueC. 内部库文档公司私有包D. 团队编码约定Code Review标准思考题你的技术栈有哪些可以做成Skill如何设计Skill的粒度太细会导致频繁加载太粗会导致冗余如何建立Skill的版本机制

更多文章

前端开发 2026/4/7 3:17:15

FastAPI 部署 NLP 模型实战：从 BERT 文本分类到生产级接口实现

一、概述在电商及内容平台中，NLP 模型的应用场景极广，包括商品分类预测、实体抽取、拼写纠错等。将训练完成的 PyTorch 模型从实验环境迁移至生产环境，需要一个高性能、高并发且易于维护的 Web 框架。FastAPI 凭借其原生支持异步编程&#…

QT处理CSV实战指南：解决中文乱码、逗号陷阱与线程安全最近在项目中用QT处理CSV文件时，遇到了几个让人头疼的问题。相信不少开发者都曾为CSV文件的中文乱码、特殊字符处理和多线程同步而烦恼过。今天我就把这些实战经验整理出来，希望能帮大家…

张开发

前端开发 2026/4/7 2:45:35

OpenClaw文件监控：SecGPT-14B实时分析新增敏感文档

OpenClaw文件监控：SecGPT-14B实时分析新增敏感文档 1. 为什么需要本地文件监控方案上周我差点犯下一个致命错误——误将包含客户联系信息的Excel表格拖进了团队共享文件夹。虽然及时撤回，但这件事让我意识到：个人电脑上的敏感文件需要主动…

张开发

知识库别往System Prompt塞了！我用Skill Loading把3000 tokens压缩到100，省下66%成本

最新文章

数据库---Day6 数据库约束

vLLM-v0.17.1部署案例：政府公文写作辅助系统vLLM私有化部署

wsl空间回收步骤

如何分析网站SEO关键词排名

Python 循环语句

OpenClaw+Qwen3.5-9B低成本自动化：自建模型比API省80%

推荐文章

突破手游操控瓶颈：QtScrcpy虚拟映射技术全解析

Flutter Riverpod：状态管理的新纪元

WintunAdapter 设计解析：一个 VNP 数据面的无锁优雅实现

Arduino二进制模拟时钟库：LED阵列驱动的轻量级时间可视化方案

RP2040硬件加速步进电机控制库picoasyncstepper

minimal-json：嵌入式C语言轻量级JSON解析器

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

FastAPI 部署 NLP 模型实战：从 BERT 文本分类到生产级接口实现

告别抓瞎！手把手教你用Wireshark解密TLS 1.3流量（附SSLKEYLOGFILE环境变量配置）

小白友好！OpenClaw对接Qwen3-4B镜像的3种验证方式

从‘Resource temporarily unavailable’聊起：给Linux C/C++新手的EAGAIN避坑指南与心智模型

手把手教你用EMQX 5.x和花生壳内网穿透，5分钟搞定个人MQTT调试服务器

深度学习图神经网络：从结构数据中学习表示

手把手教你用立创EDA复现蓝桥杯客观题电路设计（2024真题解析）

如何在Windows上轻松管理Android设备：Fastboot Enhance终极指南

告别CNN！用Swin-Unet在PyTorch 1.7上搞定医学图像分割（附完整代码与预训练权重）

QY-DG800E实训台玩转PLC：一个按钮实现电机正反转的几种编程思路

QT处理CSV踩过的坑：中文乱码、逗号陷阱和QMutex锁的正确用法

OpenClaw文件监控：SecGPT-14B实时分析新增敏感文档