Agent 与工程化

这一组内容主要解决的问题是：

当你已经会用模型、会做检索、会接工具之后，怎么把这些能力真正组织成一个可运行、可调试、可评估、可交付的 Agent 系统。

这里不只是讲“Agent 是什么”，还会进一步进入：

Workflow 和 Agent 的边界
State / Memory 的设计
Planning Pattern
Evals / Harness
Observability / Guardrails
Production Checklist
可直接复制的 TypeScript 模板

小地图

1. 基础结构

2. 评估、治理与运行

3. Runtime 与控制流

这 3 张图对应一条逐步升级的主线：

先理解 Agent 基本形态
再分清什么时候该用 Workflow，什么时候才真的需要 Agent
然后进入评估、数据治理、运行治理和风险控制

适合谁看

适合：

已经理解基础能力，准备真正学习 Agent 的人
想从“Demo 能跑”升级到“系统能稳”的人
关心评估、调试、上线和治理的人

建议怎么读

推荐顺序：

这一组读完之后，可以重点检查什么

读完这一组后，最好能回答这些问题：

一个系统什么时候算 Agent，什么时候只是 Workflow
route 和 triage 应该先判断什么
State 和 Memory 应该怎么分工
Prompt Injection 常见落点在哪里，为什么它不能只靠强提示词解决
不同 Planning Pattern 适合什么任务
多 Agent 什么时候真的比单 Agent 更值得拆
handoff、agents as tools 和 A2A 分别适合哪种协作边界
为什么 Agent 不能只靠“看起来效果不错”来迭代
为什么记忆和知识链路都需要来源、时效、可信度和范围治理
为什么延迟、成本和稳定性需要在同一张运行视图里一起看
为什么 Observability、Harness、Guardrails 是生产化必需品
Agent 出错时应该先分诊哪一层，而不是直接改 prompt
一次 run 的状态在整个生命周期里怎样流转
长任务和 durable execution 该怎样设计恢复路径
队列、重试、backoff 和 dead letter 各自解决什么问题
多 Agent 应该怎样分层评估，而不是只盯最终答案
为什么 approval 和 human review 不能只理解成一个确认框
tool approval、interrupt 和 resume 这三层在实现上怎么接起来
为什么 Browser Agent 和 Computer Use Agent 需要单独处理环境边界、动作白名单和人工确认
为什么很多系统不是“不会搭”，而是持续滑进了反模式
第一版 Evals / Harness 应该怎么从模板开始落地
如何把评估模板和 Harness 模板真正变成可直接复制的 Markdown 表格页
为什么 Agent 项目里 tool、state、message、memory 的类型边界比一般业务系统更重要
如何从一个最小 TypeScript 模板，平滑扩成真实 Agent 项目
如何把多工具决策也沉淀成一份可复制的 Tool-Using Agent 模板
如何把最小模板继续升级成一个真正有 grounded answer 的 RAG Agent
如何把研究型任务也沉淀成一份可复制的 Research Agent 模板

如果这些问题都更清楚了，你对 Agent 的理解就会从概念层进入工程层。

小地图​

1. 基础结构​

2. 评估、治理与运行​

3. Runtime 与控制流​

适合谁看​

建议怎么读​

这一组读完之后，可以重点检查什么​

小地图

1. 基础结构

2. 评估、治理与运行

3. Runtime 与控制流

适合谁看

建议怎么读

这一组读完之后，可以重点检查什么