Harness Engineering

如果说 Agent Engineering 解决的是“如何把模型、工具、状态和流程组织成一个能持续执行任务的系统”，那么 Harness Engineering 解决的就是另一个更工程化的问题：

当 Agent 已经能跑起来之后，怎么让它变得可测试、可观测、可比较、可回归、可持续优化。

很多团队做到 Agent 这一步时，都会遇到一个非常现实的拐点：

demo 能跑
单次效果看起来不错
也能接工具、接知识库、接工作流

但一旦任务变复杂、样本变多、版本开始迭代，问题就会马上出现：

为什么这次改 prompt 之后整体变差了
为什么某个工具调用偶尔失败，却很难复现
为什么同一个任务在测试环境和真实用户环境表现不一致
为什么看起来每个模块都没问题，但整体完成率还是不稳定

这时候你会发现，真正缺的不是“再写一个更好的 prompt”，而是缺一层能把任务运行、轨迹记录、评测分析和回归验证组织起来的工程支架。

这层支架，就是 Harness。

一句话说：

Harness Engineering 研究的是“如何为 Agent 系统搭建一个可运行、可观测、可评估、可迭代的工程底座”。`

1. 什么是 Harness Engineering

Harness 原本可以理解为一种“测试支架”或“运行支架”。

放到 AI / Agent 系统里，它不是单个 prompt，不是某个 eval 工具，也不只是一个脚本，而是围绕任务执行建立起来的一整套运行与验证框架。

它通常会把下面这些东西接起来：

任务输入
样本集合
Prompt / Context 配置
模型调用参数
工具调用过程
中间轨迹
最终输出
评分规则
对比结果
回归记录

所以 Harness 的核心价值，不是“让系统多一个能力”，而是：

让系统能被系统化地运行
让结果能被重复拿来比较
让问题能被拆开定位
让优化不再只靠感觉

可以把它理解成：

Agent 决定“怎么做事”
Harness 决定“怎么把做事过程跑起来、记下来、评起来、比起来”

2. 为什么它是 Agent Engineering 的进阶能力

很多人学完 Prompt、Context、RAG、Tool Use 和 Agent 之后，会自然觉得：

“我已经能搭系统了，接下来就是继续调效果。”

但真实工程里，最大的难点通常不是“搭出来”，而是“持续把它调稳”。

而一个复杂 Agent 系统，恰恰最容易出现下面这些问题：

2.1 多变量同时变化

一次结果变好或变差，可能来自很多地方：

prompt 改了
context 组装方式改了
工具参数变了
检索结果变了
模型版本变了
planner 策略变了

如果没有 Harness，你往往不知道到底是哪一层在起作用。

2.2 单次成功不代表系统稳定

很多 demo 的误区在于：

跑通了 3 个例子
看起来很聪明
就以为系统已经成立

但 Agent 的真实难点通常是：

是否在不同任务上都稳
是否在边界条件下也稳
是否在失败时能留下足够证据让你定位问题

这已经不是单次 prompt 调优能解决的，而是系统工程问题。

2.3 Agent 的问题往往藏在“轨迹”里

很多最终失败结果，只看最后答案是定位不出来的。

你真正需要知道的是：

它为什么选了这个工具
为什么在第 2 步就偏航了
为什么读取了正确文档却没有用进最终答案
为什么在第 4 步重复循环

也就是说，Agent 的调试对象不只是最终输出，而是整条执行轨迹。

而 Harness 的价值之一，就是把这些轨迹变成可记录、可检查、可评估的工程对象。

3. Harness 和几个相邻概念的区别

这个概念很容易和其他词混在一起，最好先分清边界。

3.1 它不等于 Prompt Engineering

Prompt Engineering 关注的是：

指令怎么写
示例怎么给
输出怎么约束

而 Harness Engineering 关注的是：

用哪些任务来跑
怎么记录运行过程
怎么比较不同 prompt 版本
怎么做回归验证

所以前者更像“优化输入内容”，后者更像“组织运行与验证系统”。

3.2 它不等于 Agent Framework

Agent Framework 更偏运行时编排，比如：

任务怎么循环
工具怎么注册
状态怎么传递

而 Harness 更偏实验与质量支撑，比如：

用什么任务集反复跑这个 Agent
每次运行保留哪些日志
怎么打分
怎么对比两个版本

框架更像“发动机”，Harness 更像“测试台 + 仪表盘 + 回归系统”。

3.3 它不等于 Evals

Evals 解决的是“怎么评估好坏”。

而 Harness 解决的是“怎么把任务运行、轨迹收集、结果整理、评分执行串起来”。

所以：

Evals 是评分逻辑
Harness 是承载评分执行的运行框架

3.4 它不等于 Observability

Observability 更关注：

日志
指标
Trace
线上诊断

而 Harness 更关注：

任务集运行
实验可重复
离线对比
回归验证

两者经常协同，但不完全一样。

4. Harness 的核心组成

一个比较完整的 Harness，通常至少包含下面几块。

4.1 Task Set

也就是任务集合。

你不能只拿一个例子反复试，而应该准备一批有代表性的任务。

常见维度包括：

常规任务
困难任务
边界任务
容易失败的历史案例
线上真实回放样本

这决定了你的优化到底是在“局部变好”，还是“整体真的提升”。

4.2 Runtime Configuration

也就是运行配置。

包括：

使用哪个模型
用哪版系统提示词
用哪套工具定义
检索参数是什么
planner 策略是什么

如果这些配置不能稳定记录，你之后就无法解释实验结果。

4.3 Execution Runner

也就是执行器。

它负责：

逐个任务运行
驱动 Agent loop
捕获每一步输入和输出
记录工具调用与中间状态
汇总最终结果

这是 Harness 的运行骨架。

4.4 Trace Collection

也就是轨迹采集。

对于 Agent 系统，建议至少记录：

每一步的目标和决策
选择了哪个工具
工具参数是什么
工具返回了什么
中间上下文如何变化
最终为什么停止

没有这些轨迹，很多问题根本无法复盘。

4.5 Evaluation Layer

也就是评估层。

它可以包含：

最终答案评分
工具调用正确率
任务完成率
步数是否过多
是否使用了错误证据
是否命中关键约束

对 Agent 来说，评估最好分层看：

结果层：任务最终有没有完成
过程层：中间步骤是否合理
系统层：成本、延迟、稳定性是否可接受

4.6 Comparison and Regression

也就是版本对比和回归检查。

这一步很关键，因为真实团队不是只跑一次，而是会不断修改：

prompt
工具 schema
routing 策略
memory 机制
检索逻辑
模型版本

每次改动之后，你都需要知道：

哪些任务变好了
哪些任务退化了
退化集中在哪类场景

这就是 Harness 真正进入工程阶段的标志。

5. 一个典型的 Harness 执行闭环

很多 Harness 最后都可以抽象成下面这个闭环：

这条链路的含义其实非常直白：

先准备一组任务
用某个版本配置去跑
把过程和结果记下来
对结果做评估
和旧版本比较
根据问题定位去修改系统
再重新进入下一轮

你可以看到，这已经不再是“问一次模型看看好不好”，而是一个完整的工程优化回路。

6. Agent 和 Harness 的关系

可以把两者关系理解成下面这样：

这里最关键的理解是：

Agent 面向的是“完成任务”
Harness 面向的是“让任务完成过程可工程化”

没有 Agent，Harness 没有执行对象。

没有 Harness，Agent 很容易永远停留在：

靠个人经验调参数
靠临时案例做判断
靠主观感觉做结论

7. 实战里应该怎么搭 Harness

如果你在真实项目里要落地，可以优先从一个轻量版本开始，不需要一开始就做得特别重。

一个比较实用的起步方式是：

7.1 先定义任务集

先别急着优化系统，先准备一批能代表真实问题的任务样本。

建议至少包含：

10 到 20 个常规任务
几个高价值任务
几个历史失败案例
几个边界场景

如果连任务集都没有，后面的优化很容易失焦。

7.2 固化每次运行配置

确保每次实验都能回答下面这些问题：

用的是哪个模型
prompt 版本是什么
工具 schema 版本是什么
检索参数是什么
是否开启了某种 memory 策略

否则你很快就会进入“结果变了，但不知道为什么”的状态。

7.3 记录完整轨迹，而不只记录最终答案

对于 Agent，这是最值得优先做的事之一。

如果只能选一个增强点，我会优先选：

保留 step-by-step trace
保留工具调用输入输出
保留停止原因

因为很多关键问题都藏在这里。

7.4 把评估拆成多层

不要只问“答案对不对”，还要问：

它有没有选对工具
有没有引用错误信息
是否走了很多无效步骤
是否成本过高
是否在该停止的时候停下来了

Agent 的好坏，经常不是一个单一分数能解释清楚的。

7.5 做版本对比，而不是孤立看单次结果

工程上最重要的问题通常不是：

“这个结果好不好”

而是：

“这个版本和上个版本比，到底哪里变好了，哪里变差了”

所以 Harness 最终最好产出的是：

总体指标变化
分类任务变化
失败案例变化
典型轨迹差异

8. 一个非常常见的实战场景

比如你在做一个“会检索文档、调用内部 API、自动整理报告”的 Agent。

这时候你可以把 Harness 设计成这样：

8.1 输入层

用户任务样本
相关文档
工具定义
任务期望结果

8.2 运行层

固定某个 Agent workflow
运行每个任务
记录每一步决策和工具调用

8.3 评估层

是否拿到了关键事实
是否正确调用 API
最终报告是否覆盖核心点
是否出现幻觉
步数和成本是否可接受

8.4 对比层

比较旧 prompt 和新 prompt
比较旧 planner 和新 planner
比较不同模型版本
比较不同检索策略

这样你就不再是“凭感觉觉得这个 Agent 更聪明了”，而是能明确知道：

哪类任务提升了
哪类任务变差了
改动影响发生在任务流程的哪一段

9. 常见误区

9.1 把 Harness 理解成一份测试脚本

测试脚本只是其中一小部分。

真正的 Harness 更像一个贯穿运行、记录、评估和回归的实验底座。

9.2 只看最终答案，不看执行轨迹

这对普通问答还勉强够用，但对 Agent 往往不够。

因为很多失败不是“最后一句答错了”，而是前面几步决策就已经偏了。

9.3 没有固定任务集，就一直调系统

这会导致你每次都像在打移动靶。

没有稳定任务集，就很难知道优化是不是有效。

9.4 只做结果评估，不做回归对比

很多改动会带来“局部提升 + 另一部分退化”。

如果没有版本对比，你很容易只看到变好的地方，看不到代价。

9.5 一开始就把 Harness 做得过重

真实做法通常不是先造一个超级平台，而是先从轻量闭环开始：

一批任务
一个 runner
一套轨迹记录
一层基础评估
一个版本对比表

先跑起来，再逐步扩展。

10. 你可以怎么判断 Harness 是否开始发挥作用

当一个团队开始具备下面这些能力时，通常说明 Harness 已经开始真正产生价值了：

能稳定复现某类失败
能比较两个版本的优劣，而不只是靠主观感觉
能从轨迹里定位问题发生在哪一步
能把线上问题沉淀成回归样本
能在改系统后快速验证有没有引入新退化

从这个角度看，Harness Engineering 的意义并不是“多学一个新名词”，而是让 Agent 系统真正进入可持续演进的工程状态。

11. 一句话总结

如果说：

Prompt Engineering 是优化表达
Context Engineering 是优化信息环境
Tool Use 是增强执行能力
Agent Engineering 是组织多步任务流程
Evals 是判断系统好坏

那么：

Harness Engineering 就是在这些能力之上，搭出一套能反复运行、持续评估、稳定回归和高效迭代的工程闭环。`

它是很多 Agent 系统从“能演示”走向“能交付”的关键一步。

1. 什么是 Harness Engineering​

2. 为什么它是 Agent Engineering 的进阶能力​

2.1 多变量同时变化​

2.2 单次成功不代表系统稳定​

2.3 Agent 的问题往往藏在“轨迹”里​

3. Harness 和几个相邻概念的区别​

3.1 它不等于 Prompt Engineering​

3.2 它不等于 Agent Framework​

3.3 它不等于 Evals​

3.4 它不等于 Observability​

4. Harness 的核心组成​

4.1 Task Set​

4.2 Runtime Configuration​

4.3 Execution Runner​

4.4 Trace Collection​

4.5 Evaluation Layer​

4.6 Comparison and Regression​

5. 一个典型的 Harness 执行闭环​

6. Agent 和 Harness 的关系​

7. 实战里应该怎么搭 Harness​

7.1 先定义任务集​

7.2 固化每次运行配置​

7.3 记录完整轨迹，而不只记录最终答案​

7.4 把评估拆成多层​

7.5 做版本对比，而不是孤立看单次结果​

8. 一个非常常见的实战场景​

8.1 输入层​

8.2 运行层​

8.3 评估层​

8.4 对比层​

9. 常见误区​

9.1 把 Harness 理解成一份测试脚本​

9.2 只看最终答案，不看执行轨迹​

9.3 没有固定任务集，就一直调系统​

9.4 只做结果评估，不做回归对比​

9.5 一开始就把 Harness 做得过重​

10. 你可以怎么判断 Harness 是否开始发挥作用​

11. 一句话总结​