AI工程化(一)定义和层级划分

张开发
2026/4/3 16:00:28 15 分钟阅读
AI工程化(一)定义和层级划分
一、介绍1、为什么需要工程化在简单场景下我们通常不需要工程化。例如像 Redis 这样的工具在基础使用阶段仅仅作为缓存读写组件时并不需要复杂的架构设计或框架支持。但随着业务规模扩大、使用场景变复杂就会逐渐暴露出一系列问题例如缓存雪崩缓存穿透缓存击穿数据一致性这时仅靠简单调用已经无法满足需求就需要引入一整套工程化方案如缓存策略、限流、降级、分布式设计等来保证系统的稳定性和可扩展性。AI 系统的发展路径其实是类似的。在最初阶段我们可能只需要简单调用一个大模型 API传入 prompt 并获取结果这种方式几乎不需要工程化。但随着应用深入会逐渐遇到更多复杂问题例如Prompt 变得越来越复杂、难以维护不同任务需要不同模型成本 vs 效果的权衡输出结果不稳定需要控制和校验多轮对话、上下文管理变复杂性能、成本、延迟需要优化此时单纯“调用模型”已经不够需要引入工程化手段来系统性地解决这些问题。例如通过 Prompt 模板化、拆分与组合来提升可维护性构建模型路由机制根据任务复杂度选择不同模型引入中间层Agent / Workflow管理任务流程增加缓存、重试、评估机制提升稳定性因此AI 工程化的本质是在复杂业务场景下对模型能力进行可控、可扩展、可维护的系统化封装。当 AI 从“玩具”变成“基础设施”工程化就不再是可选项而是必选项。2、工程化的定义AI 工程化AI Engineering可以理解为将大模型能力从“简单调用”升级为“可管理系统”的过程。将AI研究成果转化为稳定可靠、可维护可控、可扩展的生产系统。更具体一点它包含以下几个核心方面Prompt 工程化将原本零散的 prompt转化为结构化、可复用、可版本化的模块。模型管理与路由根据任务复杂度、成本、延迟等因素动态选择合适的模型如小模型 vs 大模型。任务编排Workflow / Agent将复杂任务拆解为多个步骤由系统自动调度执行。结果控制与评估对模型输出进行校验、过滤、打分确保结果稳定可靠。性能与成本优化包括缓存、批处理、流式输出、降级策略等。可观测性与运维监控调用情况、错误率、成本消耗以及效果评估。3、对比二、层级划分1、逻辑概念层级AWS 前负责人 Greg Coquillo 提出《The 8-Layer Architecture of Agentic AI》1️⃣ Infrastructure Layer基础设施层作用提供算力与数据基础GPU / TPU / 云计算资源数据湖 / 数据仓库存储系统如对象存储网络与负载均衡 本质AI 的“地基”没有这一层上层能力无法运行。2️⃣ Agent Internet LayerAgent 网络层作用让 Agent 能连接世界与彼此多 Agent 系统Multi-Agent Systems通信协议向量数据库如 Pinecone、WeaviateAgent 身份与状态管理执行环境 / 外部 API 本质让 Agent“活起来”可以通信、调用外部能力。3️⃣ Protocol Layer协议层作用定义 Agent 之间如何协作A2AAgent-to-Agent协议MCPModel Context ProtocolAGP / ANP 等 Agent 协议Function Call Protocol 本质AI 世界的“HTTP 协议”标准化交互方式。4️⃣ Tooling Enrichment Layer工具与增强层作用扩展模型能力边界RAG检索增强生成向量数据库FAISS、Chroma工具调用Function Calling代码执行Python / Sandbox外部 API / 插件系统 本质让 AI 不只是“会说”而是“能做”。5️⃣ Cognition Reasoning Layer认知与推理层作用让 AI 具备“思考能力”规划Planning决策Decision Making推理引擎Reasoning自我改进Self-Improvement错误处理Error Handling多步任务处理 本质Agent 的“大脑”。6️⃣ Memory Personalization Layer记忆与个性化层作用让 AI 具备“记忆”和“个性”短期记忆Working Memory长期记忆Long-term Memory用户画像Profile对话历史行为建模情感上下文 本质让 AI 从“工具”变成“助手”。7️⃣ Application Layer应用层作用面向具体业务场景个人助手内容创作写作 / 视频 / 代码电商推荐学习助手协作办公 Agent如 Slack / Notion自动化任务机器人 本质用户真正使用的“产品层”。8️⃣ Ops Governance Layer运维与治理层作用保证系统稳定、可控、可监管部署与 CI/CD成本控制Cost Optimization监控与可观测性权限与隐私治理日志与审计安全与信任机制 本质AI 工程化的“护城河”。2、技术栈层级上面的概念层级压缩成技术栈层级1️⃣ Infrastructure Layer基础设施层云、算力、存储 和前面8层里的基础设施是一样的2️⃣ Architecture Layer模型架构层Transformer、Diffusion、CNN、RNN、RAG、MoE 等 这一层讲的是模型“怎么被设计出来”⚠️ 和 Agent 架构里的“Protocol / Tooling”完全不是一类东西3️⃣ ML Foundation Model Layer基础模型层GPT-4、Claude、LLaMA、Mistral、Gemini 等 这一层是具体的大模型产品4️⃣ LLM Layer模型实例 / 推理层GPT-3.5、Claude Instant、Mistral、Phi 等 可以理解为可调用的模型版本推理服务5️⃣ API Layer接口层OpenAI API、Azure OpenAI、Anthropic API、Replicate 等 这一层是开发者真正调用的入口6️⃣ Application Layer应用层ChatGPT、Notion AI、Copilot、Runway 等 用户直接使用的产品

更多文章