在rag过程中，需要消耗token的地方在哪

张开发

• 2026/4/10 16:33:34 • 15 分钟阅读

分享文章

RAG 的成本控制和性能优化。我给你按“完整调用链”拆清楚每一步的 token 消耗总结RAG 主要消耗 token 的地方 1️⃣ embedding少量 2️⃣ LLM 输入大头 3️⃣ LLM 输出大头一、完整 RAG 流程 token 消耗点用户问题 ↓ ① embeddingquery ↓ Retriever检索不耗token ↓ 相关 chunks ↓ ② LLM 输入prompt ↓ ③ LLM 输出completion二、逐步拆解1️⃣ Query Embedding检索前embedding.embed_query(query)✔ 消耗情况✅ 消耗 token计费 ❌ 不占 LLM 上下文✔ 特点token 很少通常 20成本很低2️⃣ 文档 Embedding离线阶段embedding.embed_documents(docs)✔ 消耗情况✅ 一次性消耗建库时 ❌ 查询时不再消耗这是预处理成本3️⃣ Retriever 检索阶段retriever.invoke(query)✔ 消耗情况❌ 不消耗 token 只是向量搜索或关键词匹配4️⃣ LLM 输入最大成本 ⚠️llm.invoke(prompt)prompt 结构用户问题检索到的 chunks✔ token 计算input_tokens query (chunk_size × top_k) 举例假设query 20 tokenschunk_size 200 tokenstop_k 5总输入 20 (200 × 5) 1020 tokens 这是最大成本来源5️⃣ LLM 输出第二大成本模型生成的回答✔ 举例回答长度 200 tokens 也计费三、总成本公式总token ≈ embedding(query) LLM输入query chunks LLM输出四、结论❗ 1成本大头在哪里 LLM 输入chunks最大 LLM 输出其次 embedding 最小❗ 2Retriever 本身不耗 token❌ Retriever 不消耗 token但✅ Retriever 决定你喂多少 token 给 LLM 间接影响成本五、一个直观对比阶段是否耗 token成本占比Query embedding✅很小文档 embedding✅一次性中Retriever❌0LLM 输入✅⭐ 最大LLM 输出✅⭐ 次大

更多文章

前端开发 2026/4/10 16:28:17

JW Player插件开发教程：如何快速扩展播放器功能

JW Player插件开发教程：如何快速扩展播放器功能【免费下载链接】jwplayer No Longer Maintained 项目地址: https://gitcode.com/gh_mirrors/jw/jwplayer JW Player是一款功能强大的开源媒体播放器，通过插件系统可以轻松扩展其功能。本文将带你快…

张开发

前端开发 2026/4/10 16:25:03

STM32F429 TIM1 互补PWM与死区时间配置实战：以电机驱动为例

1. 为什么电机驱动需要互补PWM和死区时间我第一次用STM32驱动电机时，直接把PWM信号接到MOS管上，结果上电瞬间就炸管了。后来才发现，H桥电路中的上下管切换需要严格的时序控制。想象一下十字路口的红绿灯，如果两个方向的绿灯同时亮…

张开发

前端开发 2026/4/10 16:24:51

如何实现Font Awesome 7图标的响应式设计与按需加载：提升网站性能的完整指南

如何实现Font Awesome 7图标的响应式设计与按需加载：提升网站性能的完整指南【免费下载链接】Font-Awesome The iconic SVG, font, and CSS toolkit 项目地址: https://gitcode.com/GitHub_Trending/fo/Font-Awesome Font Awesome 7作为互联网上最流行的图标…

张开发

前端开发 2026/4/10 16:24:45

手把手调参：如何用沙姆角度β公式，为你的3D线扫相机项目算出一个合适的镜头夹角α？

手把手调参：如何用沙姆角度β公式，为你的3D线扫相机项目算出一个合适的镜头夹角α？ 在工业自动化检测领域，3D线扫相机凭借其高精度、高效率的特点，已成为尺寸测量、缺陷检测等场景的核心设备。但许多工程师在项目落地…

张开发

前端开发 2026/4/10 16:22:49

5分钟快速上手 Argo Events：从零部署到第一个事件触发工作流

5分钟快速上手 Argo Events：从零部署到第一个事件触发工作流【免费下载链接】argo-events Event-driven Automation Framework for Kubernetes 项目地址: https://gitcode.com/gh_mirrors/ar/argo-events Argo Events 是一个强大的 Kubernetes 原生事件驱动…

张开发

前端开发 2026/4/10 16:22:37

AI原生软件栈选型生死线：2026年必须淘汰的5类技术栈，及3套经头部大厂验证的黄金组合

第一章：AI原生软件栈选型的范式迁移与2026临界点 2026奇点智能技术大会(https://ml-summit.org) 过去三年，AI原生软件栈已从“在传统基础设施上部署大模型”转向“以模型行为为第一性原理重构全栈”。这一迁移不是渐进式优化，而是编译器、运…

张开发

前端开发 2026/4/10 16:17:34

AI入门必备数据集教程｜获取+预处理，新手也能搞定

摘要：数据是AI的“燃料”，没有高质量的数据，再优秀的算法也无法发挥作用。本文详解AI入门必备的数据集知识，包括免费数据集获取渠道、数据预处理全流程，结合Python实操，教新手快速掌握数据集的使用方法&…

张开发

前端开发 2026/4/10 16:13:50

DeepSeek-OCR效果展示：带印章/签名/骑缝章的正式文件结构化解析案例

DeepSeek-OCR效果展示：带印章/签名/骑缝章的正式文件结构化解析案例 1. 项目介绍：现代文档解析的智能革命在日常工作中，我们经常需要处理各种正式文件——合同、报告、证明文件等，这些文档往往包含复杂的格式和重要的视觉元素。…

张开发

前端开发 2026/4/10 16:09:06

OpenClaw从入门到应用——频道：Nostr

通过OpenClaw实现副业收入：《OpenClaw赚钱实录：从“养龙虾“到可持续变现的实践指南》 Nostr Nostr 是一个去中心化的社交网络协议。本通道使 OpenClaw 能够通过 NIP-04 接收并响应加密的私信（DM）。安装（按需&…

张开发

前端开发 2026/4/10 16:01:02

ComfyUI-SeedVR2-Kontext实战：如何用RTX4090一键修复老照片（附完整工作流）

ComfyUI-SeedVR2-Kontext实战：如何用RTX4090一键修复老照片（附完整工作流） 翻开泛黄的相册，那些承载着家族记忆的老照片往往因年代久远而褪色、模糊甚至破损。传统修复需要专业设计师耗费数小时手动处理，而现在&#x…

张开发

前端开发 2026/4/10 16:00:08

告别风扇噪音：用FanControl打造完美的Windows散热方案

告别风扇噪音：用FanControl打造完美的Windows散热方案【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa…

张开发

前端开发 2026/4/10 16:00:02

突破数字围墙：信息自由时代的内容访问新范式

突破数字围墙：信息自由时代的内容访问新范式在信息爆炸却又层层受限的今天，"内容访问工具"正成为知识工作者提升"信息获取效率"的关键助力。当优质报道、学术论文和专业分析被付费墙层层阻隔，一种能够智能优化访问路径的…

张开发

在rag过程中，需要消耗token的地方在哪

最新文章

收藏！2026开年AI爆火，正在重塑程序员职业命运（小白/程序员必看）

构建高效网页到设计稿自动化转换引擎：解决HTML到Figma的架构难题

NetCoreKevin谏

分享种 .NET 桌面应用程序自动更新解决方案剖

7种字重全解析：如何用思源宋体CN提升你的中文排版专业度

某新区“十五五”智慧城市数字底座与数字孪生城市建设全栈技术深度解析（WORD）

推荐文章

突破手游操控瓶颈：QtScrcpy虚拟映射技术全解析

Flutter Riverpod：状态管理的新纪元

WintunAdapter 设计解析：一个 VNP 数据面的无锁优雅实现

Arduino二进制模拟时钟库：LED阵列驱动的轻量级时间可视化方案

RP2040硬件加速步进电机控制库picoasyncstepper

minimal-json：嵌入式C语言轻量级JSON解析器

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

JW Player插件开发教程：如何快速扩展播放器功能

STM32F429 TIM1 互补PWM与死区时间配置实战：以电机驱动为例

如何实现Font Awesome 7图标的响应式设计与按需加载：提升网站性能的完整指南

手把手调参：如何用沙姆角度β公式，为你的3D线扫相机项目算出一个合适的镜头夹角α？

5分钟快速上手 Argo Events：从零部署到第一个事件触发工作流

AI原生软件栈选型生死线：2026年必须淘汰的5类技术栈，及3套经头部大厂验证的黄金组合

AI入门必备数据集教程｜获取+预处理，新手也能搞定

DeepSeek-OCR效果展示：带印章/签名/骑缝章的正式文件结构化解析案例

OpenClaw从入门到应用——频道：Nostr

ComfyUI-SeedVR2-Kontext实战：如何用RTX4090一键修复老照片（附完整工作流）

告别风扇噪音：用FanControl打造完美的Windows散热方案

突破数字围墙：信息自由时代的内容访问新范式

在rag过程中，需要消耗token的地方在哪

最新文章

收藏！2026开年AI爆火，正在重塑程序员职业命运（小白/程序员必看）

构建高效网页到设计稿自动化转换引擎：解决HTML到Figma的架构难题

NetCoreKevin谏

分享 种 .NET 桌面应用程序自动更新解决方案剖

7种字重全解析：如何用思源宋体CN提升你的中文排版专业度

某新区“十五五”智慧城市数字底座与数字孪生城市建设全栈技术深度解析（WORD）

推荐文章

突破手游操控瓶颈：QtScrcpy虚拟映射技术全解析

Flutter Riverpod：状态管理的新纪元

WintunAdapter 设计解析：一个 VNP 数据面的无锁优雅实现

Arduino二进制模拟时钟库：LED阵列驱动的轻量级时间可视化方案

RP2040硬件加速步进电机控制库picoasyncstepper

minimal-json：嵌入式C语言轻量级JSON解析器

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

分享种 .NET 桌面应用程序自动更新解决方案剖