跳到主要内容

Agent 与工程化

这一组内容主要解决的问题是:

当你已经会用模型、会做检索、会接工具之后,怎么把这些能力真正组织成一个可运行、可调试、可评估、可交付的 Agent 系统。

这里不只是讲“Agent 是什么”,还会进一步进入:

  • Workflow 和 Agent 的边界
  • State / Memory 的设计
  • Planning Pattern
  • Evals / Harness
  • Observability / Guardrails
  • Production Checklist
  • 可直接复制的 TypeScript 模板

小地图

1. 基础结构

2. 评估、治理与运行

3. Runtime 与控制流

这 3 张图对应一条逐步升级的主线:

  • 先理解 Agent 基本形态
  • 再分清什么时候该用 Workflow,什么时候才真的需要 Agent
  • 然后进入评估、数据治理、运行治理和风险控制

适合谁看

适合:

  • 已经理解基础能力,准备真正学习 Agent 的人
  • 想从“Demo 能跑”升级到“系统能稳”的人
  • 关心评估、调试、上线和治理的人

建议怎么读

推荐顺序:

  1. Agent Engineering
  2. Workflow vs Agent
  3. Router 与 Triage 设计
  4. Agent Memory and State
  5. Prompt Injection and Agent Security
  6. Agent Planning Patterns
  7. 多 Agent 系统设计
  8. Handoff、Agents as Tools 与 A2A
  9. Evaluation / Evals
  10. Harness Engineering
  11. Agent Memory and RAG Data Governance
  12. Agent Latency, Cost, and Reliability
  13. Agent Observability and Debugging
  14. Agent Failure Triage
  15. Multi-Agent Evaluations
  16. Agent Runtime State Machine
  17. Long-Running Agents 与 Durable Execution
  18. Queues、Retry、Backoff 与 Dead Letter
  19. Guardrails and Human-in-the-Loop
  20. Approval 与 Human Review Workflow
  21. Tool Approval、Interrupt 与 Resume
  22. Browser and Computer Use Agents
  23. AI Agent 常见反模式
  24. Agent Evals / Harness 模板
  25. Agent Evals Markdown 表格模板
  26. Harness Markdown 表格模板
  27. TypeScript 在 Agent 项目中的落地实践
  28. Minimal Agent TypeScript 模板
  29. Tool-Using Agent TypeScript 模板
  30. RAG Agent TypeScript 模板
  31. Research Agent TypeScript 模板

这一组读完之后,可以重点检查什么

读完这一组后,最好能回答这些问题:

  • 一个系统什么时候算 Agent,什么时候只是 Workflow
  • route 和 triage 应该先判断什么
  • State 和 Memory 应该怎么分工
  • Prompt Injection 常见落点在哪里,为什么它不能只靠强提示词解决
  • 不同 Planning Pattern 适合什么任务
  • 多 Agent 什么时候真的比单 Agent 更值得拆
  • handoff、agents as tools 和 A2A 分别适合哪种协作边界
  • 为什么 Agent 不能只靠“看起来效果不错”来迭代
  • 为什么记忆和知识链路都需要来源、时效、可信度和范围治理
  • 为什么延迟、成本和稳定性需要在同一张运行视图里一起看
  • 为什么 Observability、Harness、Guardrails 是生产化必需品
  • Agent 出错时应该先分诊哪一层,而不是直接改 prompt
  • 一次 run 的状态在整个生命周期里怎样流转
  • 长任务和 durable execution 该怎样设计恢复路径
  • 队列、重试、backoff 和 dead letter 各自解决什么问题
  • 多 Agent 应该怎样分层评估,而不是只盯最终答案
  • 为什么 approval 和 human review 不能只理解成一个确认框
  • tool approval、interrupt 和 resume 这三层在实现上怎么接起来
  • 为什么 Browser Agent 和 Computer Use Agent 需要单独处理环境边界、动作白名单和人工确认
  • 为什么很多系统不是“不会搭”,而是持续滑进了反模式
  • 第一版 Evals / Harness 应该怎么从模板开始落地
  • 如何把评估模板和 Harness 模板真正变成可直接复制的 Markdown 表格页
  • 为什么 Agent 项目里 tool、state、message、memory 的类型边界比一般业务系统更重要
  • 如何从一个最小 TypeScript 模板,平滑扩成真实 Agent 项目
  • 如何把多工具决策也沉淀成一份可复制的 Tool-Using Agent 模板
  • 如何把最小模板继续升级成一个真正有 grounded answer 的 RAG Agent
  • 如何把研究型任务也沉淀成一份可复制的 Research Agent 模板

如果这些问题都更清楚了,你对 Agent 的理解就会从概念层进入工程层。