Agent Production Checklist
学完 Prompt、Context、RAG、Tool Use、Agent、Evals 和 Harness 之后,很多人会自然进入下一个阶段:
我是不是可以把这个 Agent 真正放到生产里用了?
但从工程角度看,Agent 从“能跑 demo”到“能交付上线”之间,往往还隔着很长一段距离。
因为生产环境真正关心的,不只是:
- 它能不能做出一个看起来不错的结果
还包括:
- 它稳不稳
- 可不可控
- 好不好排查
- 出问题能不能收住
- 迭代后会不会退化
所以这篇文档的目标非常直接:
给你一份 AI Agent 上线前值得逐项检查的生产清单。
1. 为什么需要 Production Checklist
因为很多 Agent 项目在 demo 阶段主要靠这几种方式推进:
- 试几个案例
- 看起来不错
- 改改 prompt
- 再试几个例子
这在探索期完全正常。
但一旦进入生产,就会遇到更多现实问题:
- 用户输入更脏
- 任务范围更广
- 工具失败更常见
- 风险更难接受
- 回归问题更容易出现
也就是说:
生产环境考验的不是“某一次跑得好”,而是“持续跑时是否可靠”。
2. 先看一条最简判断线
如果一个 Agent 想进入生产,至少应该能回答下面这些问题:
- 它解决的目标是否清晰
- 它的边界是否明确
- 它的工具是否可靠
- 它的状态是否可控
- 它的表现是否有评估依据
- 它的风险是否有护栏
- 它的问题是否可观测、可回归
如果这些问题里有很多还答不上来,那通常还在探索期,不在生产期。
3. Checklist 第一层:目标与边界
3.1 目标是否明确
先确认:
- 这个 Agent 到底要完成什么任务
- 成功标准是什么
- 失败标准是什么
如果目标本身含糊,后面所有工程化都会变得模糊。
3.2 适用范围是否清晰
要明确:
- 哪类任务适合它
- 哪类任务不适合它
- 什么时候应该直接 fallback
一个成熟系统不是“什么都接”,而是知道自己该处理什么、不该处理什么。
4. Checklist 第二层:Workflow 与 Agent 形态
4.1 是否真的需要 Agent
先确认这件事是否必须依赖动态决策。
如果固定 Workflow 就够用,就没必要强行做重 Agent。
4.2 执行模式是否可解释
例如:
- 是 ReAct
- 是 Plan-and-Execute
- 是 Router + Executor
你最好能说清楚系统现在采用哪种形态,以及为什么。
5. Checklist 第三层:工具设计
5.1 工具职责是否清晰
每个工具最好做到:
- 单一职责
- 命名清晰
- 参数明确
- 返回结构稳定
5.2 工具失败是否可处理
需要考虑:
- 超时怎么办
- 参数错了怎么办
- 外部接口挂了怎么办
- 是否支持重试
5.3 工具是否按风险分层
最好明确:
- 只读工具
- 可写工具
- 高风险工具
这会直接影响后面的 Guardrails 设计。
6. Checklist 第四层:State 与 Memory
6.1 当前任务状态是否清晰
系统至少应知道:
- 当前目标
- 已完成步骤
- 当前证据
- 下一步候选动作
6.2 Memory 是否谨慎设计
不要把所有历史都塞成长期记忆。
要明确:
- 哪些信息长期保留
- 哪些只保留在 session
- 哪些只属于当前任务状态