跳到主要内容

AI 应用整体架构图

前面几篇文档分别讲了:

  • Prompt Engineering
  • Context Engineering
  • RAG
  • Tool Use / Function Calling
  • Agent Engineering
  • Evaluation / Evals

如果单篇看,它们都能理解;但真正做 AI 应用时,更重要的是把它们放进一个完整系统里理解。

这篇文档的目标,就是把这些内容串成一张整体架构图,帮你建立“AI 应用到底是怎么搭起来的”这件事的全局视角。

1. 先看整体图

你可以先把这个架构理解成 3 大块:

  • 应用入口:用户从哪里进入系统
  • 运行核心:请求进来后,系统怎么理解、检索、调用工具、组织上下文并生成结果
  • 质量保障:怎么评估系统是不是稳定、准确、可用

2. 再看一张“请求如何流动”的图

这张图更接近真实执行流程。

它表达的是:

  1. 用户提问
  2. 系统先理解任务和指令
  3. 装配上下文
  4. 需要时检索知识、调用工具、读取状态
  5. 把这些信息组合后交给模型
  6. 模型输出答案或执行动作
  7. 再通过评估判断质量

3. 各层分别在做什么

下面按层拆开来看。

4. Application Layer:应用层

这一层就是用户真正接触到的地方。

常见形式包括:

  • Chat 界面
  • 文档问答助手
  • Copilot
  • AI 搜索
  • 企业内部助手
  • 自动化工作台

应用层主要负责:

  • 接收用户请求
  • 展示回答
  • 展示引用来源
  • 展示工具执行结果
  • 承接交互流程

这一层更偏产品和交互,不直接决定模型能力上限,但决定用户最终怎么体验整个系统。

5. Prompt Layer:提示与指令层

这一层对应你前面学过的 Prompt Engineering

它主要解决:

  • 怎么给模型下任务
  • 怎么定义角色
  • 怎么约束输出格式
  • 要不要给 few-shot 示例
  • 要不要让模型按步骤思考

这层最典型的问题是:

  • 指令不清楚
  • 风格不稳定
  • 输出不受控

所以它更像在定义:

模型应该怎么被要求工作

6. Context Layer:上下文装配层

这一层对应 Context Engineering

它主要解决:

  • 本次调用到底要给模型哪些信息
  • 历史对话保留哪些
  • 哪些背景信息该注入
  • 哪些检索结果该加入
  • 哪些工具结果该加入
  • 当前任务状态是否要带进去

这层的核心工作是:

  • 选择信息
  • 压缩信息
  • 组织信息
  • 动态更新信息

所以它更像在定义:

模型在回答前到底看到了什么

7. Knowledge Layer:知识层

这一层对应 RAG

它主要负责:

  • 管理知识来源
  • 检索相关资料
  • 把最相关的片段交给上下文层

常见组成包括:

  • 文档源
  • chunk 切分
  • embedding
  • 向量检索
  • rerank
  • grounding

这层解决的问题是:

模型不知道的知识、私有知识、最新知识从哪里来

8. Tool Layer:工具层

这一层对应 Tool Use / Function Calling

它主要负责:

  • 查询实时数据
  • 调用外部 API
  • 操作数据库
  • 执行函数
  • 触发真实动作

比如:

  • 查天气
  • 查订单
  • 读文件
  • 发邮件
  • 建日历事件
  • 跑代码

这层解决的是:

模型怎么和外部世界交互

9. State & Memory Layer:状态与记忆层

这一层在很多简单 demo 里不明显,但在真实系统里非常关键。

它主要负责:

  • 记录当前任务做到哪一步
  • 保留中间结果
  • 保留用户长期偏好
  • 保留历史任务状态
  • 支撑多轮和长任务执行

这里通常包括两类:

  • State:短期任务状态
  • Memory:长期用户或系统记忆

这层解决的是:

系统怎么在多步任务里不失忆

10. Orchestration Layer:编排层

这一层是整套系统的“调度中心”,也是最接近 Agent Engineering 的部分。

它主要负责:

  • 判断当前任务是简单问答还是复杂任务
  • 决定要不要调用 RAG
  • 决定要不要调用工具
  • 决定是否要拆分步骤
  • 维护执行循环
  • 更新状态
  • 控制何时结束

你可以把它理解为:

整个 AI 应用的运行大脑

它负责把:

  • Prompt
  • Context
  • RAG
  • Tools
  • State

这些模块真正串起来。

11. LLM Layer:模型层

这一层就是语言模型本身。

它主要负责:

  • 理解输入
  • 推理
  • 生成回答
  • 决定工具调用
  • 决定下一步动作

模型层的表现当然很重要,但很多应用效果不好,并不一定是模型不够强,而可能是:

  • prompt 不够清楚
  • context 不够好
  • 检索不够准
  • 工具设计有问题
  • 状态没维护好

所以真实系统里,模型只是核心之一,而不是全部。

12. Evaluation Layer:评估层

这一层对应 Evaluation / Evals

它负责判断:

  • 回答是否正确
  • 检索是否命中
  • 工具调用是否正确
  • Agent 是否完成任务
  • 系统是否出现幻觉
  • 延迟和成本是否可接受

没有这层,前面所有优化都很难被稳定验证。

所以它本质上是整个系统的“质量闭环”。

13. 这些层之间的关系

可以用一句更简单的话来总结:

  • Prompt 决定模型怎么被要求工作
  • Context 决定模型看到了什么
  • RAG 决定知识从哪里来
  • Tool Use 决定模型能调用什么能力
  • State / Memory 决定系统是否能持续执行
  • Agent / Orchestration 决定整个任务怎么推进
  • Evaluation 决定你怎么知道系统真的变好了

这几层并不是独立存在的,而是互相配合。

14. 一个真实请求是怎么跑完的

假设用户说:

帮我查一下公司报销制度里,差旅住宿报销上限是多少,并告诉我如果超标该怎么办。

系统可能会这样运行:

  1. 应用层 接收用户问题
  2. Prompt 层 定义这是一个知识问答任务,要求准确回答并给依据
  3. Context 层 组装本轮上下文
  4. Knowledge 层 检索报销制度文档
  5. Context 层 把相关制度条款注入上下文
  6. LLM 层 基于条款生成答案
  7. 应用层 展示答案和引用
  8. Evaluation 层 记录这次回答效果,供后续分析

如果任务更复杂,比如:

如果我明天下午去上海出差,帮我看天气,并建议我是否需要提前订车。

系统可能会:

  1. 调用天气工具
  2. 读取用户当前城市或行程信息
  3. 组织上下文
  4. 模型结合天气和场景给出建议

这时就会同时涉及:

  • Tool Use
  • Context
  • State
  • LLM

15. 不同类型 AI 应用的架构重点不一样

虽然总体架构类似,但不同产品会有不同重心。

15.1 文档问答类

重点通常在:

  • RAG
  • Context Engineering
  • Grounding
  • 引用来源

15.2 助手 / Copilot 类

重点通常在:

  • Prompt
  • Tool Use
  • 状态管理
  • 多轮交互

15.3 Agent / 自动化类

重点通常在:

  • Orchestration
  • Planning
  • Tool Use
  • State
  • Evaluation

15.4 创作生成类

重点通常在:

  • Prompt
  • 风格控制
  • 输出结构
  • 质量评估

16. 学习这些模块的推荐顺序

如果你是从 0 到 1 系统学 AI 应用,我建议按这个顺序:

  1. Prompt Engineering
  2. Context Engineering
  3. RAG
  4. Tool Use / Function Calling
  5. Agent Engineering
  6. Evaluation / Evals
  7. 再回头看整体架构和系统设计

这个顺序的好处是:

  • 先学单点能力
  • 再学能力组合
  • 最后学系统闭环

17. 最容易出现的误区

17.1 只盯模型,不看系统

很多人会把所有问题都归结为“模型不够强”,但真实应用里,很多问题是系统设计问题。

17.2 只会写 prompt,不会做上下文装配

这会让系统在复杂场景里很快失控。

17.3 做了 RAG 但没有评估

这样很难知道问题出在检索还是生成。

17.4 做了 Agent 但没有状态管理

系统会很快陷入重复和混乱。

17.5 做了很多能力,但没有质量闭环

最后系统看起来很复杂,但并不稳定。

18. 一张更适合记忆的简化图

如果你只想快速记住整个架构,可以直接记下面这张:

这张图虽然简单,但已经能表达 AI 应用最核心的骨架。

19. 一句话总结

AI 应用不是“一个模型 + 一个输入框”这么简单,而是由 PromptContextKnowledgeToolsStateOrchestrationEvaluation 共同组成的一套系统。

如果把前面所有学习内容压缩成一句话,那就是:

AI 应用的本质,是围绕用户目标,把模型、知识、工具、状态和评估组织成一个可持续运行的系统。