大模型学习基础知识

张开发
2026/4/8 2:49:40 15 分钟阅读

分享文章

大模型学习基础知识
1、Token:(1)含义是AI理解文本的基本单位分为普通token特殊token用于特定任务如标记句子开始/结束子词token处理不常见词汇减少词表大小(2)处理流程输入文本》分词将输入文本切分成多个token》编码将每个token转换为数字ID》嵌入将tokenID转换为向量表示》处理AI模型对token序列进行处理》解码将模型输出的tokenID转回文本(3)重要性限制输入长度影响处理速度决定费用计算影响理解准确度2、LLM(1)含义大语言模型通过阅读大量的文本资料模仿人类语言能力核心技术是TransFromer(2)处理流程学习阶段》理解模式学习单词模式之间的关系和规律理解语法和上下文》生成回应3、RAG(1)含义结合检索系统和生成式AI的技术让AI能够访问和利用外部知识库来生成更准确和更可靠的回答减少时效性问题和幻觉问题(2)用户查询》查询向量化》向量检索》上下文增强》生成回答(3)RAG痛点①Miss Content内容缺失原本的文本中就没有问题的答案增加响应知识库、数据清洗与增强、更好的prompt设计②文档加载准确性和效率比如pdf文件加载如何提取其中的有用文字信息和图片信息优化文档读取器、数据清理和增强③文档切分的颗粒度文本切分的大小和位置会影响后面检索出来的上下文完整性和大模型交互的token数量怎么控制好文档切分的度是个难题固定长度的分块、内容重叠分块、基于结构分块、基于递归分块、分块大小选择④miss top ranked错过排名靠前的文档增加召回数量、重排⑤not in context提取上下文与答案无关⑥wrong format例如需要json给了字符串prompt调优⑦incomplete答案回答了问题的一部分⑧not extracted提取的上下文中有答案但大模型没有 提取出来⑨incorrect specifity答案不够具体或过于具体(4)RAG评估①RAG对大模型能力改善的程度②可以知道改善的方向和参数调整的程度(5)RAGvsFine-tuning①RAG检索增强生成是把内部的文档数据先进行embedding借助检索先获得大致的知识范围答案再结合prompt给到LLM让LLM生成最终答案②Fine-turning微调是用一定量的数据集对LLM进行局部参数的调整以期望LLM更加理解我们业务逻辑又更好的zero-shot能力(6)搭建流程①索引首先清理和提取各种格式的原始数据然后将其统一转换成统一的春文本格式。为适应语言模型的上下文限制文本被切分成更小的、可消化的块chunk然后使用嵌入模型将块编码成向量表示并储存在向量数据库中。这对随后检索阶段实现高效的相似性搜索至关重要。②检索在收到用户查询后。RAG系统采用与索引阶段相同的编码模型将查询转换为向量表示然后计算索引语料库中查询向量与块向量的相似性得分。该系统优先级和检索最高块TOP-K块显示最大相似性查询1)关键字搜索储存在Redis准确度不高2)语义搜索通过向量数据库a.本地向量库向量持久化b.向量嵌入生成如果已经有自己向量嵌入的生成模型那么需要的是一个能够高效存储和查询这些向量的 数据库。如果需要数据库服务来生成向量嵌入那么应该提供这类功能的产品c.延迟要求对于要实时响应的应用程序低延迟是管家需要选择能够提供快速查询响应的数据库。如果需要批量处理大门可以选择哪些优化了大量数据处理的数据库d.开发人员的经验根据团队技术栈和经验选择一个易于集成和使用的数据库。如果团队成员对于某些技术或框架更熟悉那么小选择一个能够与之无缝集成的数据库会更有利(7)实现流程阿里云百练、智谱RAG加载文件》读取文本》文本分割1)按句子分割长短不一2)按字符数分割语义会乱3)按固定字符数结合overlapping window滑动窗口有重合部分4)递归方法 RecursiveCharaterTextSplitter借助Langchain实现》文本向量化》在文本向量中匹配出与问题向量最相似 的top k个》匹配出文本作为上下文和问题一起添加到prompt中》提交给LLM生成回答4、MCP模型上下文协议:(1)含义让AI模型能够与外部世界无缝交互的技术框架突破纯文本交流的限制实现真正的智能应用允许实时搜索和获取最新信息提供标准化接口让模型可以调用外部工具(2)核心作用标准化通信建立AI模型与外部系统之间的标准通信协议实现无缝交互、工具调用、信息获取、安全控制提供精确的权限管理和行为控制确保AI模型的安全使用(3)工作流程用户输入》意图识别》工具选择》参数构造》结果处理》响应式生成(4)应用场景智能搜索助手、数据分析工具、企业知识库助手、智能购物助手5、Agent智能体一种能够感知、决策和行动以实现特定目标的自主AI系统(1)核心组块①感知模块用于感知环境状态②推理/决策模块基于感知信息进行推理和决策可以理解为观察和实操。会把大型任务分解成子任务思维链技术思维树技术并规划执行任务流程观察反思与改进随时终止③工具和使用能力调用外部工具和资源以完成任务1)工具预制工具、自定义工具2)工具集④观察⑤记忆在预训练重中大模型通过调整神经元的权重来学习理解和生成人类语言者可以视为“记忆”形成过程。通过使用深度学习和梯度下降等技术大模型可以不断提高基于预测或生产文本的能力进而形成世界记忆或长期记忆1)短期记忆在当前执行过程中产生的信息比如某个工具或某个子任务执行的结果记忆会在当前任务过程中产生和暂存在任务完结后被清空2)长期记忆一般指向外部知识库通常用向量数据库来存储和检索(2)例子客户服务智能体数据分析智能体复杂任务处理智能体(3)其他Agent认知框架对过去的行动进行自我批评和反思从错误中学习并改进未来的步骤从而提高最终结果的质量①Plan-and-Execute计划并实行②Slef-Ask(自问自答③Thinking and Self-Refection思考并自我反思主要用于模拟和实现复杂决策过程④ReAct框架通过结合推理Reasoning和行动Acting、观察 来增强推理和决策的效果langchain生态比较好但是量化不好不能实时调整和llamindex专注于数据处理的框架个性化多一点6、Tansformer架构(1)解决的问题序列长度问题RNN难以处理常序列、存在梯度消失问题、并行计算瓶颈、长距离依赖捕获文本中远距离的语义关联十分困难(2)核心模块①自注意力机制qkv矩阵②多头注意力③位置编码④编码器⑤解码器⑥残差连接收敛防止梯度消失、梯度爆炸问题与层归一化(3)使用领域语言模型、机器翻译、图像处理、语音识别、多模态学习7、Langchain:基于大语言模型用于构建端到端语言模型应用的框架提供一系列工具、套件和接口让开发者使用语言模型来实现各种复杂任务(1)阶段①开发阶段使用LangChain开源构建块和组件构建应用程序利用第三方集成和模版快速启动②生产化阶段使用LangSmith检查、监控和评估您的链从而开源自信的持续优化和部署③部署阶段使用LangServe将任何链转化为API(2)核心组件①向量化③模型Models包含各大语言模型的LangChain接口和调用细节以及输出解析机制④提示模版使提示工程流线化进一步激发大语言模型的潜力⑤数据检索构建并操作文档的方法接受用户的查询并返回最相关的文档轻松搭建本地知识库![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/a59ab834fe5a421d9402fe296522df13.gif1)Document loaders文档加载器均继承于BaseLoader返回document列表a.JSONLoader、CSVLoader、TextLoader、PyPDFLoaderb.load一次性加载全部文档 lazy_load延迟流式传输文档对大型数据集很有用避免内存溢出c.RecursiveCharacterTextSplitter递归字符文本分割器主要用于按自然段落分割大文档。是LangChain官方推荐默认字符分割器d.RunnablePassthrough()输入截流e.⑥记忆通过短时记忆和长时记忆在对话过程中存储和检索数据让ChatBot记住你如果想要封装历史记录除了自行维护历史消息外LangChain也提供 History功能帮助模型在历史记忆的情况下回答1)基于RunnableWithMessageHistory在原有链的基础上创建带有历史记录功能的新链2)基于InMemoryChatMessageHistory为历史记录提供内存存储3)fileChatMessageHistory实现持久化记忆4)⑦链LangChain中的核心机制以特定方式封装各种功能并通过一系列组合自动而灵活地完成任务Runnable子类对象才能入链1)StrOutParser字符串输出解析器可以将模型的输出转换成字符串传给下一个模型2)JsonOutputPArserJson格式输出解析器将模型输出转换成Json格式传给词啊一个模型第一个模型的输出要提问时要严格他的输出格式3)RunnambeLambda自定义函数灵活转换4)⑧代理另一个LangChain中的核心机制通过代理让大模型自主调用外部工具和内部工具使智能Agent成为可能(3)开源库①langchain-core基础抽象和LangChain表达式语言②langchain-community第三方集成。合作伙伴包如langchain-openai、langchain-anthropic等一些集成已经进一步拆分为自己的轻量级包只依赖于langchain-core③langchain-构成应用程序认知架构的链、代理和检索策略④langgraph通过将步骤建模成图中的边和节点使用LLMs构建健壮且有状态的多参与者应用程序⑤langserve将LangChain链部署为REST API⑥LangSmith一个开发者平台可以让您调试、测试、评估和监控LLM应用程序并与LangChain无缝集成8、Gradio模型托管:(1)直观演示你的模型、API、函数需要图形化界面但又怒太需要过多关心界面(2)快速部署与分享只需要多添加一个参数“sharetrue”72小时后过期9、提示词工程稳定输出通过优化提示词prompt和生成策略从而获得更好模型返回结构的工程技术(1)prompt需要不断调优(2)说清楚自己到底想要什么要具体(3)不要让机器去猜测。为了不让机器去猜测我们就需要告诉细节(4)提示工程有一些技巧①提示描述要让他做什么②上下文给出与任务相关的背景信息③例子给出一些例子让模型知道自么回复④输入任务的输入信息⑤输出输出的格式⑥自我一致性利用COT生成多个推理路径答案最终选择答案出现次数最多的作为最终答案输出⑦思维链添加推导过程有利于解答逻辑类⑧思维树拆分成子任务DFS/BFS⑨Least-To-Most Prompting(5)prompt攻击和防范10、大模型工流程(1)分词化①词粒度适用与西方语言②字符粒度中文最直接的分词方法可以尝试转成英文有些大模型喜欢英文③子词粒度将单词分解成更小的单位如词根、词缀等④自定义粒度适用于你的项目(2)词表映射(3)生成文本实际上是给大模型一串提示文本其推理过程不是一步到位的会基于现有的token根据概率最大原则预测出词啊一个最有可能的token然后将该预测的token加入到输入序列中循环往复这个过程叫做“自回归”直到输出特殊token如end of sentence专门控制推理结合时结束或者输出长度达到阈值

更多文章