Guardrails and Human-in-the-Loop
当一个 AI Agent 只是做摘要、分类、整理时,风险通常还比较可控。
但一旦它开始具备下面这些能力,问题就不一样了:
- 调内部 API
- 改数据
- 发消息
- 下命令
- 触发外部流程
这时候系统就不再只是“会回答”,而是开始“会行动”。
而只要系统会行动,就一定会碰到一个工程上非常关键的问题:
哪些事情可以自动做,哪些事情必须加限制,哪些事情应该让人来确认。
这篇文档重点讲的就是:
- 什么是
Guardrails - 什么是
Human-in-the-Loop - 为什么 Agent 越能做事,这两层越重要
- 真实系统里该怎么设计边界
1. 什么是 Guardrails
Guardrails 可以理解成系统的护栏、边界和约束机制。
它的目标不是让 Agent “什么都不能做”,而是让它:
- 在允许范围内做事
- 在高风险边界前停下来
- 在不确定时不要擅自行动
所以 Guardrails 的本质不是“削弱能力”,而是“让能力可控”。
2. 什么是 Human-in-the-Loop
Human-in-the-Loop 可以理解成:
在关键节点把人纳入决策闭环。
它通常意味着:
- 某些动作需要人工确认
- 某些结果需要人工审核
- 某些异常需要人工接管
所以它的重点不是“人一直手动干 活”,而是:
在高风险节点,人保留最终控制权。
3. 为什么 Agent 比普通 AI 系统更需要 Guardrails
因为 Agent 的风险不只来自“说错话”,还来自“做错事”。
比如:
- 调错工具
- 用错参数
- 在错误上下文里执行动作
- 把不确定判断当成确定结论
- 在没有权限时继续推进
这类问题的后果可能包括:
- 数据被误改
- 外部消息误发
- 审批链路被误触发
- 内部资源被错误调用
所以越是有行动能力的 Agent,越需要 Guardrails。
4. Guardrails 通常保护什么
一个比较完整的 Agent 系统,Guardrails 通常会覆盖下面几层。
4.1 输入边界
也就是用户输入是否合规。
比如:
- 是否含有敏感内容
- 是否在允许任务范围内
- 是否试图越权
4.2 工具边界
也就是 Agent 到底能调用哪些工具。
比如:
- 哪些工具只读
- 哪些工具可写
- 哪些工具只允许部分角色使用
4.3 参数边界
工具即使能调,也不代表参数可以随便给。
比如:
- 金额上限
- 时间范围
- 资源作用域
- 白名单对象
4.4 动作边界
也就是哪些动作可以自动执行,哪些必须停下来确认。
4.5 输出边界
也就是最终给用户的内容是否合规、是否暴露不该暴露的信息。
5. 哪些动作通常应该要求人工确认
你可以把下面这些动作优先视为高风险 :
- 删除
- 写入
- 发送
- 对外发布
- 涉及金钱
- 涉及权限变更
- 涉及敏感数据
一个非常实用的原则是:
可逆、低风险、低影响的动作更容易自动化;不可逆、高风险、高影响的动作更适合引入人工确认。
6. 一个简单但很实用的风险分层
可以先把 Agent 动作分成 3 层:
6.1 Low Risk
例如:
- 总结
- 检索
- 草稿生成
- 只读查询
这类动作通常可以自动执行。
6.2 Medium Risk
例如:
- 修改草稿
- 生成建议配置
- 准备待发送内容
这类动作通常可以自动完成,但最好留给人确认最终提交。
6.3 High Risk
例如:
- 删除数据
- 发送正 式通知
- 执行写入型 API
- 触发财务或权限操作
这类动作一般应默认要求人工确认。
7. Guardrails 不只是权限控制
很多人一提 Guardrails,就只想到“权限校验”。
但真实系统里,它还包括:
- 范围限制
- 频率限制
- 成本限制
- 步数限制
- 结果校验
- 异常回退
比如:
- 最多执行 8 步
- 最多重试 2 次
- 单次成本不能超过某个阈值
- 如果结果置信度不足,必须停下来
这些都属于 Guardrails。
8. Human-in-the-Loop 常见放在哪里
8.1 执行前确认
最常见的一种方式。
比如:
- “是否确认发送这封邮件?”
- “是否确认删除这些记录?”