新增章节
Harness Engineering
面向 AI 系统的“测试基建”:把结果变稳定,把回归可自动化,把质量能量化。
核心组成
Eval Harness(评测基建)
- 定义输入集合(golden set)与标签
- 定义输出判定(rule-based + LLM judge)
- 离线回归:每次变更都跑一遍
质量门禁(Quality Gate)
- 失败阈值(例如 pass-rate ≥ 95%)
- 关键用例必须全绿(critical path)
- 漂移监控与告警(prompt/model/数据)
可观测性(Observability)
- 记录 traceId + prompt/version + latency
- 采样保存输入/输出用于复盘(脱敏)
- 线上回归:shadow traffic / canary
最小落地(MVP)
- 选 20 条关键用例(覆盖核心链路 + 失败高发点)。
- 写 1 个可重复执行的 runner(本地/CI 都能跑)。
- 定义 2 个指标:通过率、P95 延迟;设置门禁阈值。
- 每次改 prompt/模型/检索,都必须跑回归并记录结果。