Claude Code 一周烧掉一半配额?我从逆向工程中看到了 Agent 测试的致命盲区

张开发
2026/4/9 1:08:12 15 分钟阅读

分享文章

Claude Code 一周烧掉一半配额?我从逆向工程中看到了 Agent 测试的致命盲区
面试求职「面试试题小程序」 内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试命中率杠杠的。大家刷起来…职场经验干货软件测试工程师简历上如何编写个人信息一周8个面试软件测试工程师简历上如何编写专业技能一周8个面试软件测试工程师简历上如何编写项目经验一周8个面试软件测试工程师简历上如何编写个人荣誉一周8个面试软件测试行情分享这些都不了解就别贸然冲了.软件测试面试重点搞清楚这些轻松拿到年薪30W软件测试面试刷题小程序免费使用永久使用很多人已经开始感觉到不对劲了。花 30 美元买的 Claude Code 周配额以前能撑三四天现在一上午就烧掉一半。你以为是自己的对话太密集但账单上显示的 Token 消耗数字怎么看都不对劲。这不是个例。有人逆向工程了 Claude Code 的源码发现了一连串叠加的 bug。其中一条最致命一旦你进入 Extra Usage超额付费模式客户端会悄悄把缓存时长从 1 小时降级到 5 分钟。你起身倒杯水回来就是一次完整的上下文重建费用直接从余额里扣没有任何提示。这已经不是“AI 工具偶尔犯错”的问题了。这是一个缺乏可观测性、缺乏成本熔断、缺乏透明决策逻辑的 Agent 系统正在批量制造信任危机。我们今天不聊新闻。聊一个所有测试从业者都必须面对的问题你拿什么去测试这类黑盒 Agent目录一、现象 / 热点AI 编程助手正在“一边偷懒一边烧钱”二、本质变化Agent 的经济模型和可观测性双双缺失三、核心机制拆解缓存降级、截断、伪造限速一个比一个隐蔽四、典型案例 / 对比同一个工具不同安装方式天壤之别五、工程落地启示测试 Agent 不能再只测“对不对”六、趋势判断透明化是唯一的出路一、现象 / 热点AI 编程助手正在“一边偷懒一边烧钱”Claude Code 上线不到半年口碑急转直下。有人跟踪了它的思考深度变化从 1 月底的约 2200 字符到 2 月下旬骤降至 720 字符3 月初进一步跌至 560 字符。降幅 67%。与此同时一个叫 redact-thinking 的功能上线把思考过程从界面上隐藏了。你再也看不到它到底想了多少。更严重的是一组缓存 bug。一位 Claude Max 20x 订阅用户发现自己仅 4 月 1 日一天就烧掉了 43% 的一周配额。他花几天逆向分析了 cli.js找出了 7 个相互叠加的 bugExtra Usage 模式下缓存 TTL 从 1 小时降级为 5 分钟原生安装包自带的 Bun 运行时会损坏缓存前缀会话恢复时丢失附件类型导致每次恢复都是缓存未命中自动压缩功能没有熔断失败后无限重试工具结果在客户端被截断Bash 上限 30KGrep 上限 20K客户端伪造假的限速错误实际没有发起任何 API 调用服务端压缩机制悄悄删除工具结果破坏缓存这些 bug 之间的关系是相乘而不是相加。同时触发其中三个不到两小时就能烧掉一周配额。这不是个别用户的抱怨。Boris ChernyClaude Code 负责人不得不出面解释称 redact-thinking 只是 UI 隐藏不影响推理。但用户实测表明行为确实变了成本确实暴涨了。一个可以传播的观点句当 AI 工具开始在用户看不见的地方调整缓存策略来平衡自己的账本时它牺牲的不只是几美金的 Token 费而是整个行业的信任。二、本质变化Agent 的经济模型和可观测性双双缺失很多人把这件事归结为“bug”。但我认为这是Agent 系统在工程化落地过程中必然会撞上的墙。核心在于两点。第一Agent 的“经济模型”是隐式的。传统软件你付费买功能功能消耗是固定的。但 Agent 按 Token 计费每一次推理的成本取决于上下文长度、缓存命中率、模型 effort 级别。用户根本无法预估“问一个简单问题”到底会花多少钱。更糟糕的是像 Claude Code 这样客户端可以单方面改变缓存策略用户完全不知情。第二可观测性几乎为零。你看不到真实的思考深度被 redact 了看不到缓存是否命中被静默降级了看不到工具结果是否被截断截断了也不告诉你。你想 debug 为什么配额消耗这么快你连数据都没有。本质上是Agent 把决策逻辑封装成了黑盒却把成本风险转嫁给了用户。另一个可以传播的观点句一个不能让你实时看到“每一轮对话的真实成本”的 Agent本质上是在邀请你为它的实现缺陷买单。三、核心机制拆解缓存降级、截断、伪造限速一个比一个隐蔽我们以最严重的那个 bug 为例拆解一下技术细节。在 Claude Code 的 cli.js 中有一个函数决定向服务器申请多长的缓存 TTLTime To Live。正常逻辑是申请 1 小时。但这个函数会偷偷检查你是否进入了 Extra Usage 模式。一旦检测到TTL 就被降级为 5 分钟。流程如下代价非常具体。以 220K 上下文为例1 小时缓存 → 每轮约 0.22 美元5 分钟缓存 → 每轮约 0.61 美元贵了 1.8 倍。30 美元的 Extra Usage 额度在 1 小时缓存下能撑约 135 轮在 5 分钟缓存下只能撑约 48 轮。更隐蔽的是这个降级没有任何日志没有任何 UI 提示。你只知道钱没了不知道为什么。另外几个 bug 也很典型客户端截断Bash 工具输出超过 30K 字符就被截断Grep 超过 20K 也被截断。截断后的残缺内容破坏了缓存前缀导致缓存失效。这不是服务器限制是客户端主动截的。伪造限速错误客户端会在大型对话记录中伪造一个假的限速错误显示 model: synthetic、token 数为零。实际上根本没有发起任何 API 调用。用户以为是服务器限流其实是客户端自己拒绝了。服务端静默删除压缩机制会在会话进行中悄悄删除工具结果同样破坏缓存且无法从客户端修复。这些 bug 的共同特征是静默、无反馈、无补偿机制。四、典型案例 / 对比同一个工具不同安装方式天壤之别有一个非常有意思的对比。发现这些 bug 的开发者给出了一个建议如果使用原生安装包切换到 npm 安装。因为官方二进制文件内置了一个自定义 Bun 运行时这个运行时会在每次请求时损坏缓存前缀。改用 npm 安装后问题消失。有用户在 WSL 环境下实测证实改用 npm 方式安装后额度消耗速率立刻恢复正常。更进一步的对比使用 VS Code 插件的用户 → 没遇到这些 bug使用电脑桌面版的用户 → 没遇到使用网页版的用户 → 没遇到使用 CLI 原生安装包的用户 → 集体中招结论很清晰这个吞额度 bug 几乎是 Claude Code CLI 原生安装包专属的灾难。这意味着什么意味着同一个 Agent 能力部署方式不同经济模型完全不同。用户以为是模型本身的问题实际上是客户端实现的 bug。这给测试从业者的启示很直接测试 Agent 不能只测模型能力必须测客户端工程实现包括缓存策略、截断逻辑、限速行为。五、工程落地启示测试 Agent 不能再只测“对不对”如果你是一名测试工程师或者测试开发工程师这件事给你的不是“吃瓜素材”而是一个明确的技能升级方向。传统的自动化测试关注的是功能正确性输入 A输出是不是 B但 Agent 系统的测试必须增加三个新维度1. 经济模型可观测性测试你的 Agent 系统是否提供了实时的成本仪表盘是否能在每一轮对话后给出本轮消耗 Token、缓存命中率、各工具调用费用分解Claude Code 在 v2.1.92 里增加了 /cost 命令展示基于每个模型以及缓存命中情况的详细费用分解。这是对的但还不够——它仍然是在问题爆发后才补上的。2. 策略透明性测试Agent 的所有“自动决策”——比如自适应思考、自动压缩、缓存 TTL 选择——是否对用户透明用户是否有能力覆盖默认策略比如Claude Code 把 effort 级别默认调为 Medium用户可以手动调回 High。但问题是有多少用户知道这个开关存在3. 故障熔断与回放测试当自动压缩无限重试时有没有熔断机制当缓存频繁失效时有没有降级策略告警当客户端伪造限速错误时有没有办法 bypass这些不是模型能力问题是工程健壮性问题。一个可以传播的观点句测试 Agent本质上是测试一个“会花你钱的不透明决策系统”。你不能只测它答得对不对还要测它花钱的方式合不合理。对于初级工程师这里有一个可以直接落地的建议下次你测试一个接入了大模型的 Agent 功能先跑一个成本基线。用相同的 prompt在相同上下文中跑 10 轮记录每轮的实际 Token 消耗和耗时。如果波动超过 30%说明缓存策略或截断逻辑有问题。对于中级工程师你需要建立一套Agent 的可观测性测试框架拦截所有 API 请求/响应记录缓存头监控客户端的截断行为模拟 Extra Usage 状态验证缓存 TTL 是否被降级这不是可选项。当你的团队开始自研 AI Agent或者在业务中深度依赖第三方 Agent 时这些就是必选项。六、趋势判断透明化是唯一的出路Claude Code 这次的信任危机不会是个例。Cursor、OpenClaw、AutoGPT…… 所有试图把大模型封装成“自主 Agent”的产品都会面临同样的矛盾一方面为了降低推理成本必须在客户端做大量优化缓存、截断、压缩、自适应思考。另一方面这些优化一旦做得不透明、不可控就会变成吞噬用户费用的黑洞。短期来看厂商会像 Anthropic 一样逐步增加账单透明度和缓存失效提醒。但这些都是事后补救。长期来看行业会形成两种分化封闭派继续把 Agent 当成黑盒只给用户一个“开箱即用”的界面成本和决策逻辑完全封闭。这类产品会逐渐失去开发者信任。透明派开放可观测性接口允许用户审计每一轮决策和成本甚至允许用户覆盖默认策略。这类产品会成为企业级应用的首选。作为测试从业者你现在就可以做一个判断你所在的团队或者你使用的 AI 测试工具属于哪一派当 Anthropic 在“追求极致体验”与“沉重推理成本”之间剧烈挣扎时开发者需要的不是一个替自己做决策的黑盒而是一个透明、可预测的杠杆。你现在负责的任何一个 AI 测试流程中是否有一个能够实时监控“每一轮对话真实成本”的仪表盘如果没有你觉得第一个 bug 会在什么时候出现最后下方这份完整的软件测试视频教程已经整理上传完成需要的朋友们可以自行领取【保证100%免费】​​​

更多文章