新增章节

Harness Engineering

面向 AI 系统的“测试基建”：把结果变稳定，把回归可自动化，把质量能量化。

核心组成

Eval Harness（评测基建）

定义输入集合（golden set）与标签
定义输出判定（rule-based + LLM judge）
离线回归：每次变更都跑一遍

质量门禁（Quality Gate）

失败阈值（例如 pass-rate ≥ 95%）
关键用例必须全绿（critical path）
漂移监控与告警（prompt/model/数据）

可观测性（Observability）

记录 traceId + prompt/version + latency
采样保存输入/输出用于复盘（脱敏）
线上回归：shadow traffic / canary

最小落地（MVP）

选 20 条关键用例（覆盖核心链路 + 失败高发点）。
写 1 个可重复执行的 runner（本地/CI 都能跑）。
定义 2 个指标：通过率、P95 延迟；设置门禁阈值。
每次改 prompt/模型/检索，都必须跑回归并记录结果。

上一章：测试与质量下一章：部署与运维