Agent Evals Markdown 表格模板
这篇文档只做一件事:
把 Agent Evals 里最常用的表格模板整理成可以直接复制的 Markdown 版本。
如果已经理解 Evals 的概念,这一页可以直接当模板页用。
1. 任务集表
| 字段 | 含义 | 示例 |
| --- | --- | --- |
| `Task ID` | 任务唯一标识 | `agent-001` |
| `Task Title` | 任务标题 | `调研框架适用性` |
| `User Goal` | 用户真正目标 | `判断是否适合内部知识助手` |
| `Task Type` | 任务类型 | `research-agent` |
| `Expected Outcome` | 成功标准 | `给出结论、风险、依据` |
| `Key Constraints` | 关键约束 | `不能脱离给定材料回答` |
| `Risk Level` | 风险等级 | `medium` |
| `Notes` | 备注 | `容易漏掉成本约束` |
2. 单次运行记录表
| 字段 | 含义 | 示例 |
| --- | --- | --- |
| `Run ID` | 单次运行标识 | `run-2026-04-29-01` |
| `Task ID` | 对应任务 | `agent-001` |
| `Model Version` | 模型版本 | `gpt-x` |
| `Prompt Version` | prompt 版本 | `prompt-v3` |
| `Tool Set Version` | 工具版本 | `tools-v2` |
| `Total Steps` | 总步数 | `6` |
| `Final Status` | 最终状态 | `success` |
| `Stop Reason` | 停止原因 | `enough-evidence` |
| `Final Answer` | 输出摘要 | `适合,但需注意接入成本` |
3. 评估维度评分表
| 维度 | 问题 | 评分方式 |
| --- | --- | --- |
| `Correctness` | 最终结论对不对 | `0/1/2` |
| `Completeness` | 是否漏关键点 | `0/1/2` |
| `Relevance` | 是否真正回答了用户目标 | `0/1/2` |
| `Tool Selection` | 工具选得对不对 | `0/1/2` |
| `Tool Arguments` | 参数是否合理 | `0/1/2` |
| `Evidence Usage` | 是否正确使用证据 | `0/1/2` |
| `Step Efficiency` | 是否存在冗余步骤 | `0/1/2` |
| `Latency` | 是否在可接受范围 | `pass/fail` |
| `Cost` | 是否超预算 | `pass/fail` |
4. 失败案例记录表
| 字段 | 含义 | 示例 |
| --- | --- | --- |
| `Failure ID` | 失败标识 | `fail-007` |
| `Task ID` | 对应任务 | `agent-001` |
| `Failure Type` | 失败类型 | `Wrong Tool` |
| `Observed Behavior` | 实际表现 | `跳过检索直接回答` |
| `Expected Behavior` | 期望表现 | `先做资料检索` |
| `Root Cause Hypothesis` | 根因假设 | `工具调用约束不明确` |
| `Fix Attempt` | 修复尝试 | `补工具调用规则` |
| `Regression Added` | 是否加入回归 | `yes` |
5. 版本评估汇总表
| 指标 | Version A | Version B | 变化 |
| --- | --- | --- | --- |
| Completion Rate | | | |
| Tool Success Rate | | | |
| Avg Steps | | | |
| Avg Cost | | | |
| Avg Latency | | | |
| Key Gains | | | |
| Key Regressions | | | |
6. 发布评审表
| 检查项 | 状态 | 备注 |
| --- | --- | --- |
| Task Set Ready | | |
| Eval Dimensions Defined | | |
| Regression Baseline Available | | |
| High-risk Cases Covered | | |
| New Failures Reviewed | | |
| Release Decision | | |
7. 一句话用法
如果只是想快速开始:
- 先复制
任务集表 - 再复制
评估维度评分表 - 每次版本更新时补
版本评估汇总表
这样已经足够从“靠感觉优化”走到“有记录地优化”。