AI 应用整体架构图
前面几篇文档分别讲了:
Prompt EngineeringContext EngineeringRAGTool Use / Function CallingAgent EngineeringEvaluation / Evals
如果单篇看,它们都能理解;但真正做 AI 应用时,更重要的是把它们放进一个完整系统里理解。
这篇文档的目标,就是把这些内容串成一张整体架构图,帮你建立“AI 应用到底是怎么搭起 来的”这件事的全局视角。
1. 先看整体图
你可以先把这个架构理解成 3 大块:
应用入口:用户从哪里进入系统运行核心:请求进来后,系统怎么理解、检索、调用工具、组织上下文并生成结果质量保障:怎么评估系统是不是稳定、准确、可用
2. 再看一张“请求如何流动”的图
这张图更接近真实执行流程。
它表达的是:
- 用户提问
- 系统先理解任务和指令
- 装配上下文
- 需要时检索知识、调用工具、读取状态
- 把这些信息组合后交给模型
- 模型输出答案或执行动作
- 再通过评估判断质量
3. 各层分别在做什么
下面按层拆开来看。
4. Application Layer:应用层
这一层就是用户真正接触到的地方。
常见形式包括:
- Chat 界面
- 文档问答助手
- Copilot
- AI 搜索
- 企业内部助手
- 自动化工作台
应用层主要负责:
- 接收用户请求
- 展示回答
- 展示引用来源
- 展示工具执行结果
- 承接交互流程
这一层更偏产品和交互,不直接决定模型能力上限,但决定用户最终怎么体验整个系统。
5. Prompt Layer:提示与指令层
这一层对应你前面学过的 Prompt Engineering。
它主要解决:
- 怎么给模型下任务
- 怎么定义角色
- 怎么约束输出格式
- 要不要给 few-shot 示例
- 要不要让模型按步骤思考
这层最典型的问题是:
- 指令不清楚
- 风格不稳定
- 输出不受控
它主要是在定义:
模型应该怎么被要求工作
6. Context Layer:上下文装配层
这一层对应 Context Engineering。
它主要解决:
- 本次调用到底要给模型哪些信息
- 历史对话保留哪些
- 哪些背景信息该注入
- 哪些检索结果该加入
- 哪些工具结果该加入
- 当前任务状态是否要带进去
这层的核心工作是:
- 选择信息
- 压缩信息
- 组织信息
- 动态更新信息
它主要是在定义:
模型在回答前到底看到了什么
7. Knowledge Layer:知识层
这一层对应 RAG。
它主要负责:
- 管理知识来源
- 检索相关资料
- 把最相关的片段交给上下文层
常见组成包括:
- 文档源
- chunk 切分
- embedding
- 向量检索
- rerank
- grounding
这层解决的问题是:
模型不知道的知识、私有知识、最新知识从哪里来
8. Tool Layer:工具层
这一层对应 Tool Use / Function Calling。
它主要负责:
- 查询实时数据
- 调用外部 API
- 操作数据库
- 执行函数
- 触发真实动作
比如:
- 查天气
- 查订单
- 读文件
- 发邮件
- 建日历事件
- 跑代码
这层解决的是:
模型怎么和外部世界交互
9. State & Memory Layer:状态与记忆层
这一层在很多简单 demo 里不明显,但在真实系统里非常关键。
它主要负责:
- 记录当前任务做到哪一步
- 保留中间结果
- 保留用户长期偏好
- 保留历史任务状态
- 支撑多轮和长任务执行
这里通常包括两类:
State:短期任务状态Memory:长期用户或系统记忆
这层解决的是:
系统怎么在多步任务里不失忆
10. Orchestration Layer:编排层
这一层是整套系统的“调度中心”,也是最接近 Agent Engineering 的部分。
它主要负责:
- 判断当前任务是简单问答还是复杂任务
- 决定要不要调用 RAG
- 决定要不要调用工具
- 决定是否要拆分步骤
- 维护执行循环
- 更新状态
- 控制何时结束
你可以把它理解为:
整个 AI 应用的运行大脑
它负责把:
- Prompt
- Context
- RAG
- Tools
- State
这些模块真正串起来。
11. LLM Layer:模型层
这一层就是语言模型本身。
它主要负责:
- 理解输入
- 推理
- 生成回答
- 决定工具调用
- 决定下一步动作
模型层的表现当然很重要,但很多应用效果不好,并不一定是模型不够强,而可能是:
- prompt 不够清楚
- context 不够好
- 检索不够准
- 工具设计有问题
- 状态没维护好
所以真实系统里,模型只是核心之一,而不是全部。
12. Evaluation Layer:评估层
这一层对应 Evaluation / Evals。
它负责判断:
- 回答是否正确
- 检索是否命中
- 工具调用是否正确
- Agent 是否完成任务
- 系统是否出现幻觉
- 延迟和成本是否可接受
没有这层,前面所有优化都很难被稳定验证。
所以它本质上是整个系统 的“质量闭环”。
13. 这些层之间的关系
可以用一句更简单的话来总结:
Prompt决定模型怎么被要求工作Context决定模型看到了什么RAG决定知识从哪里来Tool Use决定模型能调用什么能力State / Memory决定系统是否能持续执行Agent / Orchestration决定整个任务怎么推进Evaluation决定你怎么知道系统真的变好了
这几层并不是独立存在的,而是互相配合。
14. 一个真实请求是怎么跑完的
假设用户说:
帮我查一下公司报销制度里,差旅住宿报销上限是多少,并告诉我如果超标该怎么办。
系统可能会这样运行:
应用层接收用户问题Prompt 层定义这是一个知识问答任务,要求准确回答并给依据Context 层组装本轮上下文Knowledge 层检索报销制度文档Context 层把相关制度条款注入上下文LLM 层基于条款生成答案应用层展示答案和引用Evaluation 层记录这次回答效果,供后续分析
如果任务更复杂,比如:
如果我明天下午去上海出差,帮我看天气,并建议我是否需要提前订车。
系统可能会:
- 调用天气工具
- 读取用户当前城市或行程信息
- 组织上下文
- 模型结合天气和场景给出建议
这时就会同时涉及:
- Tool Use
- Context
- State
- LLM
15. 不同类型 AI 应用的架构重点不一样
虽然总体架构类似,但不同产品会有不同重心。
15.1 文档问答类
重点通常在:
- RAG
- Context Engineering
- Grounding
- 引用来源
15.2 助手 / Copilot 类
重点通常在:
- Prompt
- Tool Use
- 状态管理
- 多轮交互
15.3 Agent / 自动化类
重点通常在:
- Orchestration
- Planning
- Tool Use
- State
- Evaluation
15.4 创作生成类
重点通常在:
- Prompt
- 风格控制
- 输出结构
- 质量评估
16. 学习这些模块的推荐顺序
如果你是从 0 到 1 系统学 AI 应用,我建议按这个顺序:
Prompt EngineeringContext EngineeringRAGTool Use / Function CallingAgent EngineeringEvaluation / Evals- 再回头看整体架构和系统设计
这个顺序的好处是:
- 先学单点能力
- 再学能力组合
- 最后学系统闭环
17. 最容易出现的误区
17.1 只盯模型,不看系统
很多人会把所有问题都归结为“模型不够强”,但真实应用里,很多问题是系统设计问题。
17.2 只会写 prompt,不会做上下文装配
这会让系统在复杂场景里很快失控。
17.3 做了 RAG 但没有评估
这样很难知道问题出在检索还是生成。
17.4 做了 Agent 但没有状态管理
系统会很快陷入重复和混乱。
17.5 做了很多能力,但没有质量闭环
最后系统看起来很复杂,但并不稳定。
18. 一张更适合记忆的简化图
如果你只想快速记住整个架构,可以直接记下面这张:
这张图虽然简单,但已经能表达 AI 应用最核心的骨架。
19. 一句话总结
AI 应用不是“一个模型 + 一个输入框”这么简单,而是由 Prompt、Context、Knowledge、Tools、State、Orchestration、Evaluation 共同组成的一套系统。
如果把前面所有学习内容压缩成一句话,那就是:
AI 应用的本质,是围绕用户目标,把模型、知识、工具、状态和评估组织成一个可持续运行的系统。