新增章节

Harness Engineering

面向 AI 系统的“测试基建”:把结果变稳定,把回归可自动化,把质量能量化。

核心组成

Eval Harness(评测基建)

  • 定义输入集合(golden set)与标签
  • 定义输出判定(rule-based + LLM judge)
  • 离线回归:每次变更都跑一遍

质量门禁(Quality Gate)

  • 失败阈值(例如 pass-rate ≥ 95%)
  • 关键用例必须全绿(critical path)
  • 漂移监控与告警(prompt/model/数据)

可观测性(Observability)

  • 记录 traceId + prompt/version + latency
  • 采样保存输入/输出用于复盘(脱敏)
  • 线上回归:shadow traffic / canary

最小落地(MVP)

  1. 选 20 条关键用例(覆盖核心链路 + 失败高发点)。
  2. 写 1 个可重复执行的 runner(本地/CI 都能跑)。
  3. 定义 2 个指标:通过率、P95 延迟;设置门禁阈值。
  4. 每次改 prompt/模型/检索,都必须跑回归并记录结果。