AI 应用整体架构图

前面几篇文档分别讲了：

Prompt Engineering
Context Engineering
RAG
Tool Use / Function Calling
Agent Engineering
Evaluation / Evals

如果单篇看，它们都能理解；但真正做 AI 应用时，更重要的是把它们放进一个完整系统里理解。

这篇文档的目标，就是把这些内容串成一张整体架构图，帮你建立“AI 应用到底是怎么搭起来的”这件事的全局视角。

1. 先看整体图

你可以先把这个架构理解成 3 大块：

应用入口：用户从哪里进入系统
运行核心：请求进来后，系统怎么理解、检索、调用工具、组织上下文并生成结果
质量保障：怎么评估系统是不是稳定、准确、可用

2. 再看一张“请求如何流动”的图

这张图更接近真实执行流程。

它表达的是：

用户提问
系统先理解任务和指令
装配上下文
需要时检索知识、调用工具、读取状态
把这些信息组合后交给模型
模型输出答案或执行动作
再通过评估判断质量

3. 各层分别在做什么

下面按层拆开来看。

4. Application Layer：应用层

这一层就是用户真正接触到的地方。

常见形式包括：

Chat 界面
文档问答助手
Copilot
AI 搜索
企业内部助手
自动化工作台

应用层主要负责：

接收用户请求
展示回答
展示引用来源
展示工具执行结果
承接交互流程

这一层更偏产品和交互，不直接决定模型能力上限，但决定用户最终怎么体验整个系统。

5. Prompt Layer：提示与指令层

这一层对应你前面学过的 Prompt Engineering。

它主要解决：

怎么给模型下任务
怎么定义角色
怎么约束输出格式
要不要给 few-shot 示例
要不要让模型按步骤思考

这层最典型的问题是：

指令不清楚
风格不稳定
输出不受控

它主要是在定义：

模型应该怎么被要求工作

6. Context Layer：上下文装配层

这一层对应 Context Engineering。

它主要解决：

本次调用到底要给模型哪些信息
历史对话保留哪些
哪些背景信息该注入
哪些检索结果该加入
哪些工具结果该加入
当前任务状态是否要带进去

这层的核心工作是：

选择信息
压缩信息
组织信息
动态更新信息

它主要是在定义：

模型在回答前到底看到了什么

7. Knowledge Layer：知识层

这一层对应 RAG。

它主要负责：

管理知识来源
检索相关资料
把最相关的片段交给上下文层

常见组成包括：

文档源
chunk 切分
embedding
向量检索
rerank
grounding

这层解决的问题是：

模型不知道的知识、私有知识、最新知识从哪里来

8. Tool Layer：工具层

这一层对应 Tool Use / Function Calling。

它主要负责：

查询实时数据
调用外部 API
操作数据库
执行函数
触发真实动作

比如：

查天气
查订单
读文件
发邮件
建日历事件
跑代码

这层解决的是：

模型怎么和外部世界交互

9. State & Memory Layer：状态与记忆层

这一层在很多简单 demo 里不明显，但在真实系统里非常关键。

它主要负责：

记录当前任务做到哪一步
保留中间结果
保留用户长期偏好
保留历史任务状态
支撑多轮和长任务执行

这里通常包括两类：

State：短期任务状态
Memory：长期用户或系统记忆

这层解决的是：

系统怎么在多步任务里不失忆

10. Orchestration Layer：编排层

这一层是整套系统的“调度中心”，也是最接近 Agent Engineering 的部分。

它主要负责：

判断当前任务是简单问答还是复杂任务
决定要不要调用 RAG
决定要不要调用工具
决定是否要拆分步骤
维护执行循环
更新状态
控制何时结束

你可以把它理解为：

整个 AI 应用的运行大脑

它负责把：

Prompt
Context
RAG
Tools
State

这些模块真正串起来。

11. LLM Layer：模型层

这一层就是语言模型本身。

它主要负责：

理解输入
推理
生成回答
决定工具调用
决定下一步动作

模型层的表现当然很重要，但很多应用效果不好，并不一定是模型不够强，而可能是：

prompt 不够清楚
context 不够好
检索不够准
工具设计有问题
状态没维护好

所以真实系统里，模型只是核心之一，而不是全部。

12. Evaluation Layer：评估层

这一层对应 Evaluation / Evals。

它负责判断：

回答是否正确
检索是否命中
工具调用是否正确
Agent 是否完成任务
系统是否出现幻觉
延迟和成本是否可接受

没有这层，前面所有优化都很难被稳定验证。

所以它本质上是整个系统的“质量闭环”。

13. 这些层之间的关系

可以用一句更简单的话来总结：

Prompt 决定模型怎么被要求工作
Context 决定模型看到了什么
RAG 决定知识从哪里来
Tool Use 决定模型能调用什么能力
State / Memory 决定系统是否能持续执行
Agent / Orchestration 决定整个任务怎么推进
Evaluation 决定你怎么知道系统真的变好了

这几层并不是独立存在的，而是互相配合。

14. 一个真实请求是怎么跑完的

假设用户说：

帮我查一下公司报销制度里，差旅住宿报销上限是多少，并告诉我如果超标该怎么办。

系统可能会这样运行：

应用层 接收用户问题
Prompt 层 定义这是一个知识问答任务，要求准确回答并给依据
Context 层 组装本轮上下文
Knowledge 层 检索报销制度文档
Context 层 把相关制度条款注入上下文
LLM 层 基于条款生成答案
应用层 展示答案和引用
Evaluation 层 记录这次回答效果，供后续分析

如果任务更复杂，比如：

如果我明天下午去上海出差，帮我看天气，并建议我是否需要提前订车。

系统可能会：

调用天气工具
读取用户当前城市或行程信息
组织上下文
模型结合天气和场景给出建议

这时就会同时涉及：

Tool Use
Context
State
LLM

15. 不同类型 AI 应用的架构重点不一样

虽然总体架构类似，但不同产品会有不同重心。

15.1 文档问答类

重点通常在：

RAG
Context Engineering
Grounding
引用来源

15.2 助手 / Copilot 类

重点通常在：

Prompt
Tool Use
状态管理
多轮交互

15.3 Agent / 自动化类

重点通常在：

Orchestration
Planning
Tool Use
State
Evaluation

15.4 创作生成类

重点通常在：

Prompt
风格控制
输出结构
质量评估

16. 学习这些模块的推荐顺序

如果你是从 0 到 1 系统学 AI 应用，我建议按这个顺序：

Prompt Engineering
Context Engineering
RAG
Tool Use / Function Calling
Agent Engineering
Evaluation / Evals
再回头看整体架构和系统设计

这个顺序的好处是：

先学单点能力
再学能力组合
最后学系统闭环

17. 最容易出现的误区

17.1 只盯模型，不看系统

很多人会把所有问题都归结为“模型不够强”，但真实应用里，很多问题是系统设计问题。

17.2 只会写 prompt，不会做上下文装配

这会让系统在复杂场景里很快失控。

17.3 做了 RAG 但没有评估

这样很难知道问题出在检索还是生成。

17.4 做了 Agent 但没有状态管理

系统会很快陷入重复和混乱。

17.5 做了很多能力，但没有质量闭环

最后系统看起来很复杂，但并不稳定。

18. 一张更适合记忆的简化图

如果你只想快速记住整个架构，可以直接记下面这张：

这张图虽然简单，但已经能表达 AI 应用最核心的骨架。

19. 一句话总结

AI 应用不是“一个模型 + 一个输入框”这么简单，而是由 Prompt、Context、Knowledge、Tools、State、Orchestration、Evaluation 共同组成的一套系统。

如果把前面所有学习内容压缩成一句话，那就是：

AI 应用的本质，是围绕用户目标，把模型、知识、工具、状态和评估组织成一个可持续运行的系统。

1. 先看整体图​

2. 再看一张“请求如何流动”的图​

3. 各层分别在做什么​

4. Application Layer：应用层​

5. Prompt Layer：提示与指令层​

6. Context Layer：上下文装配层​

7. Knowledge Layer：知识层​

8. Tool Layer：工具层​

9. State & Memory Layer：状态与记忆层​

10. Orchestration Layer：编排层​

11. LLM Layer：模型层​

12. Evaluation Layer：评估层​

13. 这些层之间的关系​

14. 一个真实请求是怎么跑完的​

15. 不同类型 AI 应用的架构重点不一样​

15.1 文档问答类​

15.2 助手 / Copilot 类​

15.3 Agent / 自动化类​

15.4 创作生成类​

16. 学习这些模块的推荐顺序​

17. 最容易出现的误区​

17.1 只盯模型，不看系统​

17.2 只会写 prompt，不会做上下文装配​

17.3 做了 RAG 但没有评估​

17.4 做了 Agent 但没有状态管理​

17.5 做了很多能力，但没有质量闭环​

18. 一张更适合记忆的简化图​

19. 一句话总结​

1. 先看整体图

2. 再看一张“请求如何流动”的图

3. 各层分别在做什么

4. Application Layer：应用层

5. Prompt Layer：提示与指令层

6. Context Layer：上下文装配层

7. Knowledge Layer：知识层

8. Tool Layer：工具层

9. State & Memory Layer：状态与记忆层

10. Orchestration Layer：编排层

11. LLM Layer：模型层

12. Evaluation Layer：评估层

13. 这些层之间的关系

14. 一个真实请求是怎么跑完的

15. 不同类型 AI 应用的架构重点不一样

15.1 文档问答类

15.2 助手 / Copilot 类

15.3 Agent / 自动化类

15.4 创作生成类

16. 学习这些模块的推荐顺序

17. 最容易出现的误区

17.1 只盯模型，不看系统

17.2 只会写 prompt，不会做上下文装配

17.3 做了 RAG 但没有评估

17.4 做了 Agent 但没有状态管理

17.5 做了很多能力，但没有质量闭环

18. 一张更适合记忆的简化图

19. 一句话总结