AI Agent 学习术语表

随着 AI Agent 相关内容越学越多，很容易出现一个问题：

每个词好像都看过，但真正放在一起时，边界开始模糊。

这篇术语表的目标，就是帮你把 Agent 学习里最常见的一批词快速对齐。

它不会追求百科全书式的冗长解释，而更偏：

一句话解释
必要时快速区分
帮你建立清晰边界

1. 架构与系统类

Agent

围绕目标做多步决策、调用工具、读取结果并持续推进任务的系统。

Workflow

由工程师预先定义好的执行流程，路径通常比较固定。

Orchestration

系统如何组织模型、工具、状态和流程的方式。

Planner

负责决定任务怎么拆、下一步做什么的部分。

Execution Loop

Agent 在运行中不断重复的回路，例如：

Plan -> Act -> Observe -> Update -> Continue or Stop

Single-Agent

一个 Agent 负责整个任务。

Multi-Agent

多个 Agent 分工协作，共同完成一个任务。

2. Prompt 与 Context 类

Prompt

你给模型的具体指令或输入表达。

Prompt Engineering

围绕 prompt 的写法、示例、约束和输出结构进行优化的方法。

Context

模型本次调用时真正能看到的全部信息包。

Context Engineering

围绕上下文选择、组织、裁剪、增强和更新的方法体系。

System Prompt

用于定义模型角色、边界和长期行为规则的高优先级指令。

Few-shot

通过给模型示例，让它照着示例的模式完成任务。

Structured Output

要求模型按 JSON 或其他结构化格式输出，便于程序稳定解析。

3. 知识与检索类

RAG

Retrieval-Augmented Generation，先检索相关知识，再基于检索结果生成答案。

Retrieval

从知识源里找出和当前问题相关内容的过程。

Chunking

把文档切分成适合检索的片段。

Embedding

把文本转换成向量表示，用于语义检索。

Rerank

对检索出来的候选结果再次排序，提升相关性。

Grounding

让回答尽量建立在明确证据和给定资料之上，而不是凭空生成。

4. 工具与行动类

Tool Use

让模型决定是否调用外部工具来获取数据或执行动作。

Function Calling

模型以结构化方式生成函数名和参数，由系统执行真实动作。

Tool Schema

工具的结构化定义，包括名称、用途、参数与返回约束。

Observation

工具执行后返回给 Agent 的结果或反馈。

Action

Agent 在某一步决定采取的动作，比如调用某个工具。

5. 状态与记忆类

State

当前任务进行中的工作状态。

Memory

跨任务、跨轮次可复用的长期信息。

Session Memory

当前会话内持续有效的信息。

Long-term Memory

跨会话保留的稳定背景、偏好或长期记录。

State Update

每执行一步之后，系统对当前任务状态做的更新。

6. 规划与推理模式类

ReAct

Reason + Act 风格的模式，常见节奏是：

Thought -> Action -> Observation

Plan-and-Execute

先整体规划，再逐步执行的模式。

Router

先判断任务该走哪条路径、交给哪类流程或哪个 Agent 的分流机制。

Reflection

系统在输出前后做一轮自查或反思，以发现遗漏或错误。

Tree-of-Thought

同时探索多个候选推理路径，再进行筛选和比较的思路。

7. 评估与质量类

Evaluation / Evals

用系统化方法判断模型或 AI 系统在任务上的表现是否真的有效。

Task Set

一组稳定的测试任务，用于持续跑系统并比较版本表现。

Regression

验证新改动有没有让旧问题复发或让已有能力退化。

Completion Rate

任务完成率，衡量系统最终完成目标的比例。

Groundedness

回答是否真正基于提供的证据或资料。

8. Harness 与观测类

Harness

围绕任务运行、轨迹记录、评估分析和版本对比建立起来的工程支架。

Trace

一次运行过程中每一步决策、动作、结果和状态变化的记录。

Observability

让系统运行过程可看见、可追踪、可复盘的能力。

Run Log

单次运行的结构化记录，包括配置、步骤、结果等。

Stop Reason

Agent 为什么停止，例如任务完成、最大步数、失败中止等。

9. 风险与治理类

Guardrails

为 Agent 设置的边界、约束和保护机制。

Human-in-the-Loop

在关键风险节点把人纳入控制闭环的设计。

Fallback

当系统失败、超限或不适合继续自动执行时的降级路径。

Risk Level

某个动作或任务的风险等级，例如低、中、高。

10. 几组最容易混淆的词

Prompt vs Context

Prompt：更偏“怎么说”
Context：更偏“给什么信息环境”

Workflow vs Agent

Workflow：路径主要由工程师提前定义
Agent：路径更多由模型在运行时决定

State vs Memory

State：当前任务正在进行中的状态
Memory：长期保留、可复用的信息

RAG vs Memory

RAG：按需从外部知识源检索
Memory：系统长期保留的信息

Evals vs Harness

Evals：定义怎么评估
Harness：组织任务运行、记录、比较和回归的工程框架

Observability vs Harness

Observability：更偏单次运行如何看清
Harness：更偏多次运行如何系统比较和验证

11. 一句话总结

学 AI Agent 时，真正重要的不只是记住名词，而是：

知道每个词在系统里解决什么问题，以及它和相邻概念的边界在哪里。

当这些边界逐渐清楚时，你对 Agent 的理解就会从“听过很多词”变成“开始有系统感”。

1. 架构与系统类​

Agent​

Workflow​

Orchestration​

Planner​

Execution Loop​

Single-Agent​

Multi-Agent​

2. Prompt 与 Context 类​

Prompt​

Prompt Engineering​

Context​

Context Engineering​

System Prompt​

Few-shot​

Structured Output​

3. 知识与检索类​

RAG​

Retrieval​

Chunking​

Embedding​

Rerank​

Grounding​

4. 工具与行动类​

Tool Use​

Function Calling​

Tool Schema​

Observation​

Action​

5. 状态与记忆类​

State​

Memory​

Session Memory​

Long-term Memory​

State Update​

6. 规划与推理模式类​

ReAct​

Plan-and-Execute​

Router​

Reflection​

Tree-of-Thought​

7. 评估与质量类​

Evaluation / Evals​

Task Set​

Regression​

Completion Rate​

Groundedness​

8. Harness 与观测类​

Harness​

Trace​

Observability​

Run Log​

Stop Reason​

9. 风险与治理类​

Guardrails​

Human-in-the-Loop​

Fallback​

Risk Level​

10. 几组最容易混淆的词​

Prompt vs Context​

Workflow vs Agent​

State vs Memory​

RAG vs Memory​

Evals vs Harness​

Observability vs Harness​

11. 一句话总结​