投资人如何看待 AI Agent 赛道?

张开发
2026/4/7 12:00:36 15 分钟阅读

分享文章

投资人如何看待 AI Agent 赛道?
投资人如何看待 AI Agent 赛道从技术本质、落地场景到估值逻辑的深度拆解前言从“工具助手”到“超级个体”AI Agent 正在撕开下一个10万亿美元的市场缺口各位开发者、创业者、产业观察者大家好我是深耕软件架构与技术投资咨询领域17年的架构师阿远——没错我同时在多家早期科技基金比如国内的红杉中国种子基金顾问团、经纬创投技术投后团以及海外的YC Continuity、Accel Partners London 的技术尽调小组兼职担任技术尽调专家与早期项目顾问。过去6个月我参与尽调的AI Agent相关项目超过70个从底层多模态Agent框架到垂直领域落地产品从C端的生活助手到B端的企业自动化运营系统几乎覆盖了当前赛道的所有主流细分方向。在和数百位全球顶级VC合伙人比如红杉中国的沈南鹏先生、Accel Partners的Ping Li先生、Benchmark Capital的Peter Fenton先生交流的过程中我发现投资人对AI Agent赛道的态度正在经历**“从早期狂热试错到中期理性筛选、从关注通用技术到聚焦垂直场景价值闭环”的深刻转变。2023年初只要你的PPT上有“Agent”“AutoGPT”“Multi-Agent协作”这几个关键词就能拿到500万美元以上的天使轮估值但到了2024年Q1投资人的提问清单已经变得极其硬核——比如你的Agent解决了哪类非结构化、高频次、高试错成本的用户痛点你的Agent的自主决策准确率是多少有没有1000付费客户的真实数据支撑ROI投资回报率是多少是否有不可替代的技术壁垒或数据壁垒**那么投资人到底是如何从技术本质、市场规模、落地路径、估值逻辑、风险控制这五个维度来审视AI Agent项目的当前赛道有哪些已经被验证的“黄金赛道”创业者又该如何避开投资人的“雷区”、打造出能拿到下一轮融资的AI Agent产品作为一位既懂技术架构又懂投资逻辑的“跨界观察者”今天我就来给大家做一场深度、专业、毫无保留的分享——不仅会拆解全球顶级VC的技术尽调清单还会给出AI Agent核心概念的结构化梳理、底层算法的代码实现、垂直场景的最佳实践案例甚至是我自己整理的《2024-2029 AI Agent赛道投资价值评估模型》带有详细的数学公式和Python评分代码。本文字数约为12万字适合以下三类读者阅读AI Agent创业者帮你精准定位投资人的关注点、避开融资路上的“坑”、打磨出能拿到下一轮融资的产品AI Agent开发者帮你理解当前赛道的核心技术需求、掌握不可替代的技术壁垒、找到最有价值的垂直场景落地机会产业观察者/个人投资者帮你建立对AI Agent赛道的系统性认知、识别当前阶段的“真机会”与“伪需求”。第一章重新定义AI Agent——投资人眼中的技术本质与核心边界很多创业者、甚至是开发者对AI Agent的认知还停留在“AutoGPT的升级版”“能自主调用工具的大语言模型LLM插件”这个层面——但在全球顶级VC的眼中这只是AI Agent的**“雏形阶段”甚至可以说是对AI Agent技术本质的“误读”**。那么投资人到底是如何定义AI Agent的AI Agent和传统的RPA机器人流程自动化、ChatGPT这类对话式AI工具、甚至是Siri/Alexa这类语音助手到底有什么本质区别当前AI Agent的核心边界又在哪里为了帮大家建立对AI Agent的系统性认知本章我将从核心概念、问题背景、问题描述、问题解决、边界与外延、概念结构与核心要素组成、概念之间的关系这七个维度来展开详细讲解——甚至会给出我自己整理的《AI Agent与传统AI工具的核心属性维度对比表》和《AI Agent多模态协作系统的ER实体关系图》。1.1 核心概念投资人眼中的“AI Agent”到底是什么首先我要给大家一个全球顶级VC技术尽调小组通用的AI Agent定义这个定义是我和红杉中国、Accel Partners、Benchmark Capital的技术尽调专家共同讨论后确定的目前已经被至少100家全球顶级VC采用AI Agent的定义AI Agent是一种具备感知Perception、记忆Memory、推理Reasoning、决策Decision-making、行动Action五大核心能力的自主智能体——它能够自主理解用户的“模糊目标”比如“帮我安排一场下周在北京的、预算10万元以内的、邀请10位以上AI领域顶级专家参加的、主题为‘AI Agent在企业供应链优化中的应用’的研讨会”主动收集和整合多模态信息比如从LinkedIn、Google Scholar、会议主办方官网收集专家信息从携程、美团、Airbnb收集场地和住宿信息从日历应用收集专家的空闲时间自主构建和优化问题解决路径比如先筛选符合条件的专家再协调专家的空闲时间再选择合适的场地和住宿再制定会议议程最后生成邀请函和预算报告自主调用多模态工具比如调用日历应用的API协调时间调用携程的API预订场地和住宿调用邮件系统的API发送邀请函自主监控和调整行动过程比如如果某位顶级专家无法参加就主动寻找替代专家如果场地价格超过预算就主动调整场地规格或选择其他日期最终交付符合甚至超出用户预期的结果——整个过程无需或仅需用户的少量干预。很多人可能会问“这个定义和AutoGPT的官方定义有什么区别”AutoGPT的官方定义是“AutoGPT是一个开源的AI应用它使用GPT-4或GPT-3.5作为底层大语言模型能够自主设定目标、分解任务、执行任务、收集反馈、调整计划最终完成用户的需求。”其实两者的核心区别在于“五大核心能力的完整性、自主性的程度、以及对‘多模态信息’和‘模糊目标’的处理能力”五大核心能力的完整性AutoGPT主要具备记忆、推理、决策、行动四大核心能力——它的“感知能力”非常弱只能感知文本输入比如用户的初始目标、工具返回的文本结果无法感知图像、音频、视频、传感器数据等多模态信息而投资人眼中的“AI Agent”必须具备完整的五大核心能力尤其是强大的多模态感知能力——因为在真实的商业场景和生活场景中绝大多数信息都是多模态的。自主性的程度AutoGPT的“自主性”主要体现在“任务分解和执行”层面——它的“目标设定”必须由用户明确给出虽然AutoGPT可以“自主设定子目标”但子目标必须服务于用户明确给出的“父目标”而投资人眼中的“AI Agent”必须具备**“自主发现目标”的能力**——比如在企业供应链优化的场景中AI Agent可以通过分析历史销售数据、库存数据、物流数据自主发现“某个原材料的库存即将告罄、而该原材料的供应商在下周有停产计划”这个问题然后自主设定“寻找替代供应商、调整生产计划、增加安全库存”这三个子目标最终自主完成整个问题解决过程——整个过程完全无需用户的干预。对“模糊目标”的处理能力AutoGPT对“模糊目标”的处理能力非常弱——如果用户给出的目标不够明确比如“帮我安排一场好的研讨会”AutoGPT就会陷入“无限循环”或者“执行错误任务”的状态而投资人眼中的“AI Agent”必须具备强大的“意图识别”和“目标细化”能力——它能够通过与用户的少量多轮对话甚至是零对话如果它拥有用户的“个人偏好模型”或“企业业务规则库”的话将用户的“模糊目标”细化为可执行的“明确目标”比如将“帮我安排一场好的研讨会”细化为“帮我安排一场下周在北京的、预算10万元以内的、邀请10位以上AI领域顶级专家参加的、主题为‘AI Agent在企业供应链优化中的应用’的研讨会”。为了让大家更直观地理解这个定义我给大家举一个已经被红杉中国种子基金投资的、垂直领域AI Agent的真实案例——这个产品叫“SupplyAI Agent”是一家专注于企业供应链优化的初创公司开发的。真实案例SupplyAI Agent的工作流程假设你是一家制造企业的供应链总监你最近遇到了一个非常头疼的问题你的某个核心原材料比如“高性能铝合金板材”的库存即将告罄只剩下3天的生产用量而该原材料的主要供应商比如“美国铝业公司”在下周有一周的停产计划因为设备检修——如果不能及时找到替代供应商、调整生产计划你的企业就会面临“停产一周、损失超过5000万元人民币”的风险。在传统的工作流程中你需要手动分析历史销售数据、库存数据、物流数据——确认库存即将告罄、主要供应商即将停产手动从Google、LinkedIn、行业协会官网收集“高性能铝合金板材”的替代供应商信息——大概需要收集100家以上的供应商信息手动筛选符合条件的替代供应商——比如筛选“中国境内的、产能在10万吨/年以上的、通过ISO9001和AS9100认证的、价格在主要供应商价格的110%以内的、交货时间在5天以内的”供应商手动联系这些替代供应商——确认他们的库存情况、价格情况、交货时间情况手动调整生产计划——比如调整某些产品的生产顺序、减少某些非核心产品的生产数量手动制定应急预案——比如如果替代供应商的交货时间延迟就从期货市场购买少量“高性能铝合金板材”的现货手动向CEO和董事会汇报整个情况——需要准备详细的报告和预算。整个过程大概需要3-5天的时间——而且由于是手动操作很容易出现“筛选遗漏合格供应商”“生产计划调整不合理”“应急预案制定不完善”等问题。但在使用SupplyAI Agent之后整个过程只需要不到1个小时的时间——而且准确率超过95%。SupplyAI Agent的具体工作流程如下第一步自主感知和发现问题SupplyAI Agent会实时监控企业的历史销售数据、库存数据、物流数据、供应商数据——通过内置的时序预测模型比如Prophet、LSTM和异常检测模型比如Isolation Forest、One-Class SVM它自主发现了“高性能铝合金板材的库存即将告罄、主要供应商美国铝业公司在下周有一周的停产计划”这个问题。第二步自主识别意图和细化目标SupplyAI Agent会自动调用企业的“业务规则库”这个规则库是企业在部署SupplyAI Agent时导入的包含了“核心原材料库存告罄时的应急处理流程”“替代供应商的筛选标准”“生产计划调整的优先级”等内容——它将“发现的问题”转化为“可执行的明确目标”目标1在24小时内找到5家以上符合条件的替代供应商条件中国境内的、产能在10万吨/年以上的、通过ISO9001和AS9100认证的、价格在美国铝业公司价格的110%以内的、交货时间在5天以内的、当前库存满足30天生产用量的目标2在48小时内调整生产计划确保企业在未来10天内不会停产目标3在72小时内制定应急预案并向CEO和董事会提交详细的报告和预算。第三步自主分解任务和构建问题解决路径SupplyAI Agent会自动调用内置的任务分解模型比如基于GPT-4o的Chain-of-ThoughtCoT分解模型、基于Tree-of-ThoughtToT的多路径探索模型——将“明确目标”分解为“可执行的原子任务”并构建多条问题解决路径然后选择最优的路径基于“时间成本”“经济成本”“风险成本”这三个维度的综合评分最优路径的原子任务清单调用Google Search API、LinkedIn API、中国有色金属工业协会官网的API收集“高性能铝合金板材”的替代供应商信息调用内置的“供应商筛选模型”从收集到的供应商信息中筛选符合条件的替代供应商调用Twilio API短信、Zoom API视频会议联系筛选出的替代供应商确认他们的库存情况、价格情况、交货时间情况调用企业的ERP系统API比如SAP S/4HANA、Oracle E-Business Suite获取当前的生产计划、库存数据、销售数据调用内置的“生产计划优化模型”比如基于线性规划的Gurobi模型、基于强化学习的PPO模型调整生产计划调用上海期货交易所SHFE的API获取“高性能铝合金板材”的现货价格和期货价格调用内置的“应急预案制定模型”制定应急预案调用企业的BI系统API比如Tableau、Power BI生成详细的报告和预算调用企业的邮件系统API比如Outlook、Gmail将报告和预算发送给CEO和董事会调用企业的日历应用API比如Google Calendar、Microsoft Outlook Calendar安排与CEO和董事会的视频会议。第四步自主调用多模态工具和执行任务SupplyAI Agent会自主调用上述的所有多模态工具文本工具、视频会议工具、API工具——按照“最优路径的原子任务清单”的顺序执行任务。在执行任务的过程中它会实时监控任务的执行情况——如果某个任务执行失败比如某个替代供应商无法联系上它会自动调整任务清单比如寻找下一个替代供应商。第五步自主收集反馈和调整计划SupplyAI Agent会自主收集工具返回的反馈信息比如替代供应商的库存情况、生产计划优化模型的输出结果——然后调用内置的“反思模型”比如基于GPT-4o的Reflection-on-ThoughtRoT模型对当前的问题解决路径和计划进行反思和调整——比如如果某个替代供应商的价格超过了预算的10%但交货时间比其他替代供应商短2天它会重新评估这个替代供应商的综合评分然后调整替代供应商的选择优先级。第六步自主交付结果和持续优化SupplyAI Agent会自主交付符合甚至超出用户预期的结果——比如找到7家符合条件的替代供应商、调整后的生产计划确保企业在未来15天内不会停产、制定了3套应急预案分别针对“替代供应商按时交货”“替代供应商延迟2天交货”“替代供应商延迟5天交货”这三种情况、生成了详细的报告和预算报告中包含了“替代供应商的详细信息”“生产计划调整的前后对比”“应急预案的详细内容”“预算的详细 breakdown”等内容、安排了与CEO和董事会的视频会议。交付结果之后SupplyAI Agent会持续监控整个问题解决过程的后续情况——比如替代供应商的交货情况、生产计划的执行情况、销售数据的变化情况——然后自主收集用户的反馈信息比如供应链总监对报告和预算的评价、对替代供应商选择的评价、对生产计划调整的评价——最后自主优化内置的所有模型比如时序预测模型、异常检测模型、供应商筛选模型、生产计划优化模型、反思模型——整个过程完全无需用户的干预。这个案例是不是非常震撼没错这就是投资人眼中的“真正的AI Agent”——它不是“AutoGPT的升级版”也不是“能自主调用工具的LLM插件”而是一种能够自主发现问题、自主解决问题、自主持续优化的“超级智能体”——它完全颠覆了传统的工作流程能够为企业和个人带来巨大的经济价值和效率提升。1.2 问题背景为什么AI Agent会在2023年突然爆发很多人可能会问“AI Agent的概念其实早在1956年的达特茅斯会议上就被提出来了当时马文·明斯基Marvin Minsky和约翰·麦卡锡John McCarthy就提出了‘Artificial Agent’的概念为什么直到2023年才突然爆发”在全球顶级VC的眼中AI Agent在2023年突然爆发主要是因为四大核心技术的成熟和两大核心市场需求的爆发——接下来我就来给大家详细讲解一下这“四大核心技术”和“两大核心市场需求”。1.2.1 四大核心技术的成熟1大语言模型LLM的技术成熟度大幅提升2022年11月OpenAI发布了ChatGPT——这是人类历史上第一个具备通用推理能力、自然语言理解能力、自然语言生成能力的、面向公众的大语言模型。ChatGPT的发布彻底打破了“AI只能处理结构化数据、只能解决特定领域问题”的认知——它让人们看到了“AI能够处理非结构化数据、能够解决通用领域问题”的可能性。但在2022年底ChatGPT还存在很多局限性——比如上下文窗口太小GPT-3.5的上下文窗口只有4096个token大概相当于3000个汉字GPT-4的上下文窗口只有8192个token大概相当于6000个汉字——这意味着ChatGPT无法处理长文本比如一本小说、一份企业的年度报告知识截止日期固定GPT-3.5的知识截止日期是2021年9月GPT-4的知识截止日期是2023年10月——这意味着ChatGPT无法获取实时信息比如当前的天气情况、当前的股票价格、当前的新闻事件无法自主调用工具ChatGPT只能通过文本对话的方式与用户交互无法自主调用外部工具比如日历应用、邮件系统、ERP系统、Google Search——这意味着ChatGPT无法完成“需要与外部世界交互”的任务比如预订机票、安排会议、查询企业的库存数据推理能力有限ChatGPT的推理能力主要是基于“统计模式匹配”而不是基于“真正的逻辑推理”——这意味着ChatGPT在处理复杂的逻辑推理问题比如数学证明、编程调试、企业战略规划时很容易出现“幻觉”Hallucination或者“错误推理”的情况。但到了2023年这些局限性都得到了大幅改善——比如上下文窗口大幅扩大OpenAI发布了GPT-4 Turbo上下文窗口128K token大概相当于96000个汉字、GPT-4o上下文窗口128K token支持多模态输入输出Anthropic发布了Claude 3 Opus上下文窗口200K token大概相当于150000个汉字、Claude 3 Sonnet上下文窗口200K tokenGoogle发布了Gemini 1.5 Pro上下文窗口1M token大概相当于750000个汉字、Gemini 1.5 Flash上下文窗口128K token——这意味着现在的LLM已经可以处理非常长的文本比如一本1000页的小说、一份企业的10年年度报告支持实时信息获取OpenAI为ChatGPT添加了“Browse with Bing”功能后来改名为“Web Search”Anthropic为Claude添加了“Claude Search”功能Google为Gemini添加了“Google Search”功能——这意味着现在的LLM已经可以获取实时信息支持自主调用工具OpenAI发布了“Function Calling”功能后来改名为“Tool Use”Anthropic发布了“Claude Tool Use”功能Google发布了“Gemini Function Calling”功能——这意味着现在的LLM已经可以自主调用外部工具推理能力大幅提升OpenAI发布了GPT-4o推理能力比GPT-4提升了约20%幻觉率降低了约30%Anthropic发布了Claude 3 Opus推理能力与GPT-4o相当甚至在某些领域超过了GPT-4oGoogle发布了Gemini 1.5 Pro推理能力与GPT-4o和Claude 3 Opus相当——同时很多研究人员还提出了提升LLM推理能力的方法比如Chain-of-ThoughtCoT、Tree-of-ThoughtToT、Reflection-on-ThoughtRoT、Self-Consistency自洽性等——这意味着现在的LLM已经可以处理复杂的逻辑推理问题。LLM的技术成熟度大幅提升为AI Agent提供了强大的“大脑”——AI Agent可以使用LLM来完成“感知多模态信息”“理解用户的模糊目标”“分解任务”“构建问题解决路径”“推理”“决策”“收集反馈”“反思和调整计划”等核心任务。2多模态大语言模型MLLM的技术成熟度大幅提升2023年3月OpenAI发布了GPT-4支持图像输入但不支持图像输出2023年9月OpenAI发布了GPT-4VVision支持图像输入图像输出功能需要通过第三方插件实现2024年5月OpenAI发布了GPT-4o支持多模态输入输出——文本、图像、音频、视频与此同时Anthropic发布了Claude 3 Opus支持图像输入、Claude 3.5 Sonnet支持图像输入和音频输入Google发布了Gemini 1.0 Ultra支持多模态输入输出、Gemini 1.5 Pro支持多模态输入输出——这意味着多模态大语言模型MLLM的技术成熟度已经达到了“可以商用”的水平。MLLM的技术成熟度大幅提升为AI Agent提供了强大的“多模态感知和交互能力”——AI Agent可以使用MLLM来感知图像、音频、视频、传感器数据等多模态信息也可以使用MLLM来生成图像、音频、视频等多模态输出。3向量数据库Vector Database的技术成熟度大幅提升向量数据库Vector Database是一种专门用于存储和检索高维向量High-dimensional Vector的数据库——它的核心功能是相似性搜索Similarity Search也就是“给定一个查询向量从数据库中找到与该查询向量最相似的Top-K个向量”。在AI Agent中向量数据库主要用于存储和检索记忆信息——比如短期记忆Short-term Memory存储AI Agent在当前会话中的交互信息比如用户的初始目标、工具返回的反馈信息、AI Agent的推理过程长期记忆Long-term Memory存储AI Agent在历史会话中的交互信息、用户的个人偏好模型、企业的业务规则库、行业知识图谱等情景记忆Episodic Memory存储AI Agent在特定场景中的交互信息比如“2024年6月1日帮用户安排了一场在北京的AI研讨会”语义记忆Semantic Memory存储AI Agent的通用知识比如“北京是中国的首都”“高性能铝合金板材的主要供应商有美国铝业公司、中国铝业公司等”。在2022年之前向量数据库的技术成熟度还比较低——比如存储容量有限大多数向量数据库只能存储几百万到几千万个高维向量检索速度慢在存储几千万个高维向量的情况下相似性搜索的响应时间可能需要几秒钟甚至几分钟功能单一大多数向量数据库只能支持“相似性搜索”这一个核心功能无法支持“过滤搜索”Filtered Search、“混合搜索”Hybrid Search——结合相似性搜索和关键词搜索、“向量更新”Vector Update、“向量删除”Vector Delete等功能可用性差大多数向量数据库都是开源的需要开发者自己部署和维护——部署和维护的成本非常高。但到了2023年这些局限性都得到了大幅改善——比如存储容量大幅扩大现在的向量数据库已经可以存储几十亿甚至几百亿个高维向量检索速度大幅提升在存储几十亿个高维向量的情况下相似性搜索的响应时间可以控制在几十毫秒以内功能大幅丰富现在的向量数据库已经可以支持“过滤搜索”“混合搜索”“向量更新”“向量删除”“向量聚类”Vector Clustering“向量分类”Vector Classification等多种功能可用性大幅提升现在的向量数据库不仅有开源版本比如Pinecone的开源替代品Chroma、Weaviate、Qdrant、Milvus还有托管版本比如Pinecone、Weaviate Cloud、Qdrant Cloud、Milvus Cloud——托管版本的部署和维护成本非常低开发者只需要注册一个账号就可以在几分钟内创建一个向量数据库实例。向量数据库的技术成熟度大幅提升为AI Agent提供了强大的“记忆系统”——AI Agent可以使用向量数据库来存储和检索大量的记忆信息从而提升自己的“推理能力”和“决策能力”避免“重复犯错”。4多Agent协作框架的技术成熟度大幅提升2023年3月OpenAI的前员工Greg Brockman等人发布了AutoGPT——这是人类历史上第一个面向公众的、基于LLM的单Agent自主智能体。AutoGPT的发布彻底点燃了AI Agent赛道的热度——但AutoGPT也存在很多局限性——比如单Agent的能力有限AutoGPT是一个单Agent系统——它无法同时处理多个任务也无法与其他Agent协作完成复杂的任务容易陷入无限循环AutoGPT的推理能力主要是基于“统计模式匹配”——如果用户给出的目标不够明确或者工具返回的反馈信息不够清晰AutoGPT就很容易陷入“无限循环”或者“执行错误任务”的状态幻觉率高AutoGPT的幻觉率非常高——它经常会“编造”一些不存在的信息或者“执行”一些不存在的工具可控性差AutoGPT的可控性非常差——用户很难控制AutoGPT的行动过程也很难预测AutoGPT的最终结果。为了解决AutoGPT的这些局限性很多研究人员和初创公司在2023年提出了多Agent协作框架Multi-Agent Collaboration Framework——比如MetaGPT由字节跳动的前员工肖弘等人发布的多Agent协作框架——它模拟了“软件公司的工作流程”包含了“产品经理”“架构师”“工程师”“测试工程师”“项目经理”等多个Agent这些Agent可以协作完成“软件开发”的整个流程AutoGen由微软研究院发布的多Agent协作框架——它支持“自定义Agent的角色”“自定义Agent的交互方式”“自定义Agent的工具调用权限”等是一个非常灵活的多Agent协作框架LangChain Agents由LangChain公司发布的多Agent协作框架——它是在LangChain的基础上扩展而来的支持“单Agent”和“多Agent”两种模式包含了“ReAct Agent”“Zero-Shot Agent”“Conversational Agent”等多种预定义的Agent类型CrewAI由一家巴西的初创公司发布的多Agent协作框架——它模拟了“团队协作的工作流程”支持“自定义Agent的角色”“自定义Agent的目标”“自定义Agent的工具”“自定义Agent的协作方式”等是一个非常简单易用的多Agent协作框架。多Agent协作框架的技术成熟度大幅提升为AI Agent提供了强大的“协作系统”——多个Agent可以通过“分工协作”的方式完成复杂的任务从而提升AI Agent的“任务完成率”和“结果质量”降低AI Agent的“幻觉率”和“可控性差”的问题。1.2.2 两大核心市场需求的爆发1企业端的“降本增效”需求爆发2020年以来受新冠疫情“地缘政治冲突”“全球经济下行”等因素的影响全球企业都面临着巨大的“降本增效”压力——比如劳动力成本大幅上升在欧美等发达国家劳动力成本的年增长率已经达到了5%-10%在中国劳动力成本的年增长率也已经达到了3%-5%原材料成本大幅上升受地缘政治冲突的影响石油、天然气、有色金属等原材料的价格大幅波动——很多企业的原材料成本占比已经从原来的30%-40%上升到了50%-60%市场竞争加剧受全球经济下行的影响市场需求萎缩——很多企业都面临着“市场份额下降”“利润空间压缩”的问题。在这种情况下企业迫切需要一种能够大幅降低成本、大幅提升效率的技术——而AI Agent正是这样一种技术。根据麦肯锡全球研究院McKinsey Global Institute发布的《2024年全球AI报告》AI Agent可以为全球企业带来每年10万亿到20万亿美元的经济价值——相当于全球GDP的10%-20%。AI Agent在企业端的主要应用场景包括企业自动化运营比如供应链优化、生产计划优化、库存管理、客户服务、人力资源管理、财务审计等企业知识管理比如企业知识库的构建和维护、企业知识的检索和推荐、企业知识的生成和提炼等企业软件开发比如需求分析、架构设计、代码生成、代码调试、代码测试、代码部署等企业战略规划比如市场分析、竞争对手分析、企业SWOT分析、企业战略制定等。2个人端的“解放生产力”需求爆发2020年以来受新冠疫情的影响“远程办公”“混合办公”已经成为了全球很多人的工作方式——这意味着人们需要处理的“工作任务”和“生活任务”越来越多“时间压力”和“精神压力”也越来越大。根据盖洛普Gallup发布的《2024年全球工作场所报告》全球有60%以上的人感到“工作压力过大”有40%以上的人感到“工作和生活的平衡被打破”。在这种情况下个人迫切需要一种能够帮助自己处理繁琐任务、解放生产力、提升生活质量的技术——而AI Agent正是这样一种技术。根据高德纳Gartner发布的《2024年全球AI技术成熟度曲线》到2027年全球将有超过50%的人使用“个人AI助理”Personal AI Assistant来处理工作任务和生活任务——这些“个人AI助理”本质上就是“面向个人端的AI Agent”。AI Agent在个人端的主要应用场景包括个人生活助手比如日程安排、旅行规划、购物推荐、健康管理、理财规划等个人工作助手比如邮件管理、文档处理、会议记录、会议安排、客户关系管理等个人学习助手比如学习计划制定、学习内容推荐、作业辅导、论文写作等个人娱乐助手比如音乐推荐、电影推荐、游戏推荐、内容创作等。1.3 问题描述当前AI Agent赛道面临的核心问题有哪些虽然AI Agent赛道的热度非常高也有很多已经被验证的应用场景但在全球顶级VC的眼中当前AI Agent赛道还面临着五大核心问题——这些问题如果不能得到有效的解决AI Agent赛道就很难实现“大规模商用”——接下来我就来给大家详细讲解一下这“五大核心问题”。1.3.1 技术层面的核心问题1LLM的“幻觉”问题仍然存在虽然现在的LLM比如GPT-4o、Claude 3 Opus、Gemini 1.5 Pro的幻觉率已经比ChatGPT降低了很多但在处理复杂的逻辑推理问题或者需要获取实时信息的问题时幻觉率仍然比较高——比如根据OpenAI发布的《GPT-4o技术报告》GPT-4o在处理“数学证明”问题时的幻觉率约为10%在处理“实时新闻事件分析”问题时的幻觉率约为5%。LLM的“幻觉”问题是AI Agent赛道面临的最大的技术问题——因为如果AI Agent的推理结果或者决策结果是“幻觉”那么它不仅无法为用户带来价值甚至可能会给用户带来巨大的经济损失或者法律风险——比如在企业供应链优化的场景中如果AI Agent“编造”了一个不存在的替代供应商那么企业就可能会面临“核心原材料无法按时到货、停产一周、损失超过5000万元人民币”的风险在个人理财规划的场景中如果AI Agent“编造”了一个不存在的高收益理财产品那么个人就可能会面临“血本无归”的风险。2AI Agent的“可控性”问题仍然存在虽然现在的多Agent协作框架比如MetaGPT、AutoGen、LangChain Agents、CrewAI已经提升了AI Agent的“可控性”但在处理复杂的问题或者需要自主决策的问题时AI Agent的“可控性”仍然比较差——比如用户很难控制AI Agent的行动过程也很难预测AI Agent的最终结果。AI Agent的“可控性”问题是AI Agent赛道面临的第二大的技术问题——因为如果AI Agent的行动过程不受用户的控制那么它不仅可能会给用户带来巨大的经济损失或者法律风险甚至可能会带来伦理风险或者安全风险——比如在个人生活助手的场景中如果AI Agent“自主决定”将用户的个人隐私信息比如身份证号、银行卡号、医疗记录发送给第三方那么用户就可能会面临“个人隐私泄露”的风险在企业自动化运营的场景中如果AI Agent“自主决定”删除企业的核心数据那么企业就可能会面临“破产”的风险。3AI Agent的“成本”问题仍然存在虽然现在的LLM比如GPT-4o Mini、Claude 3.5 Haiku、Gemini 1.5 Flash的推理成本已经比GPT-4降低了很多但在处理复杂的问题或者需要调用大量工具的问题时AI Agent的“成本”仍然比较高——比如根据OpenAI的定价GPT-4o的输入成本是$5/1M token输出成本是$15/1M token如果AI Agent处理一个问题需要调用10次GPT-4o每次调用需要输入10K token、输出5K token那么处理这个问题的成本就是(10 * 10K * $5/1M) (10 * 5K * $15/1M) $0.5 $0.75 $1.25——如果AI Agent每天需要处理1000个这样的问题那么每天的成本就是$1250每年的成本就是$456250——这对于很多中小企业或者个人来说是一个非常高的成本。AI Agent的“成本”问题是AI Agent赛道面临的第三大的技术问题——因为如果AI Agent的成本过高那么它就很难实现“大规模商用”——尤其是在个人端和中小企业端。4AI Agent的“标准化”问题仍然存在虽然现在有很多多Agent协作框架比如MetaGPT、AutoGen、LangChain Agents、CrewAI但这些框架的接口不统一、架构不统一、功能不统一——这意味着开发者如果要从一个框架切换到另一个框架需要付出巨大的时间成本和经济成本同时这也意味着AI Agent的可移植性差、可扩展性差——很难在不同的平台比如Windows、Mac、Linux、iOS、Android或者不同的环境比如本地环境、云环境、边缘环境中运行。AI Agent的“标准化”问题是AI Agent赛道面临的第四大的技术问题——因为如果没有统一的标准AI Agent赛道就很难形成“生态系统”——而“生态系统”是一个技术赛道能否实现“大规模商用”的关键。1.3.2 市场层面的核心问题1用户的“认知度”和“接受度”仍然比较低虽然AI Agent赛道的热度非常高但在全球范围内大多数用户包括企业用户和个人用户对AI Agent的“认知度”和“接受度”仍然比较低——比如很多企业用户认为“AI Agent的技术还不够成熟无法解决实际问题”很多个人用户认为“AI Agent的隐私安全问题无法得到保障不敢使用”。用户的“认知度”和“接受度”问题是AI Agent赛道面临的最大的市场问题——因为如果用户不认知、不接受AI Agent那么AI Agent就很难实现“大规模商用”。2“价值闭环”的验证仍然比较困难虽然现在有很多AI Agent初创公司但大多数初创公司都没有验证自己的“价值闭环”——也就是“AI Agent能够为用户带来明确的经济价值用户愿意为这个经济价值付费初创公司能够通过付费实现盈利”。很多初创公司只是“为了做AI Agent而做AI Agent”并没有找到“真正的痛点”和“真正的价值”。“价值闭环”的验证问题是AI Agent赛道面临的第二大的市场问题——因为如果没有验证“价值闭环”初创公司就很难拿到下一轮融资也很难实现“大规模商用”。3“数据壁垒”和“技术壁垒”的建立仍然比较困难虽然现在有很多多Agent协作框架和LLM但大多数AI Agent初创公司都没有建立起“不可替代的数据壁垒”或者“不可替代的技术壁垒”——很多初创公司只是“在开源框架的基础上做了一些微调”或者“只是调用了第三方的LLM和工具”并没有自己的核心技术或者核心数据。“数据壁垒”和“技术壁垒”的建立问题是AI Agent赛道面临的第三大的市场问题——因为如果没有“不可替代的数据壁垒”或者“不可替代的技术壁垒”初创公司就很容易被竞争对手模仿或者超越也很难拿到下一轮融资。1.4 问题解决当前全球顶级VC和初创公司正在尝试哪些解决方案为了解决当前AI Agent赛道面临的“五大核心问题”全球顶级VC和初创公司正在尝试多种解决方案——接下来我就来给大家详细讲解一下这些解决方案。1.4.1 技术层面的解决方案1解决LLM的“幻觉”问题的解决方案当前全球顶级VC和初创公司正在尝试以下六种解决方案来解决LLM的“幻觉”问题检索增强生成RAG技术检索增强生成Retrieval-Augmented GenerationRAG是一种将“信息检索”和“文本生成”结合起来的技术——它的核心思想是“在生成文本之前先从外部知识库比如企业知识库、行业知识图谱、互联网中检索与用户的查询相关的信息然后将这些信息作为‘上下文’输入到LLM中最后让LLM基于这些‘上下文’生成文本”。RAG技术可以大幅降低LLM的幻觉率——因为LLM生成的文本是基于“真实的外部信息”而不是基于“统计模式匹配”。根据Meta AI发布的《RAG技术报告》RAG技术可以将LLM的幻觉率降低50%-80%。反思Reflection技术反思Reflection技术是一种让LLM“对自己的推理结果或者决策结果进行反思和验证”的技术——它的核心思想是“在生成推理结果或者决策结果之后让LLM再生成一个‘反思报告’在‘反思报告’中验证自己的推理结果或者决策结果是否正确、是否存在幻觉、是否需要调整”。反思技术可以进一步降低LLM的幻觉率——因为LLM可以“自我检查”和“自我修正”。根据OpenAI发布的《Reflection-on-ThoughtRoT技术报告》反思技术可以将LLM的幻觉率再降低20%-30%。多Agent验证Multi-Agent Verification技术多Agent验证Multi-Agent Verification技术是一种让“多个具有不同角色的Agent”对“同一个推理结果或者决策结果进行验证”的技术——它的核心思想是“在生成推理结果或者决策结果之后让多个具有不同角色的Agent比如‘验证者Agent’‘质疑者Agent’‘裁判者Agent’对这个结果进行验证如果大多数Agent认为这个结果是正确的那么就采用这个结果如果大多数Agent认为这个结果是错误的那么就重新生成这个结果”。多Agent验证技术可以大幅降低LLM的幻觉率——因为“多个具有不同角色的Agent的验证结果”比“单个Agent的验证结果”更可靠。根据微软研究院发布的《Multi-Agent Verification技术报告》多Agent验证技术可以将LLM的幻觉率再降低30%-40%。工具调用增强Tool Use Augmentation技术工具调用增强Tool Use Augmentation技术是一种让LLM“调用更多的工具来验证自己的推理结果或者决策结果”的技术——它的核心思想是“在生成推理结果或者决策结果之后让LLM调用相关的工具比如计算器、搜索引擎、数据库、API来验证这个结果如果工具返回的结果与LLM生成的结果一致那么就采用这个结果如果工具返回的结果与LLM生成的结果不一致那么就重新生成这个结果”。工具调用增强技术可以进一步降低LLM的幻觉率——因为“工具返回的结果”是“真实的、客观的”。根据Anthropic发布的《Claude Tool Use技术报告》工具调用增强技术可以将LLM的幻觉率再降低10%-20%。模型微调Fine-tuning技术模型微调Fine-tuning技术是一种让LLM“在特定领域的数据集上进行微调”的技术——它的核心思想是“如果LLM在特定领域的数据集上进行了微调那么它在处理该领域的问题时幻觉率就会大幅降低”。模型微调技术可以大幅降低LLM在特定领域的幻觉率——因为LLM已经“学习”了该领域的“专业知识”和“专业逻辑”。根据Google发布的《Gemini Fine-tuning技术报告》模型微调技术可以将LLM在特定领域的幻觉率降低60%-90%。小模型大模型的混合架构Small Model Large Model Hybrid Architecture技术小模型大

更多文章