Skip to content

6.3 成熟度模型

评估是看当下,成熟度是看路径。你的 Harness 在哪个阶段?下一步该往哪走?


QA 成熟度五级模型

L1文档化
核心流程有文档记录
写了 CLAUDE.md,但 Agent 经常不遵守
L2有门禁
关键节点有自动检查
Linter + Hooks 生效,不合规代码被自动拦截
L3可观测
全链路行为可追踪可诊断
知道 Agent 每一步在做什么,问题能快速定位
L4自主
Agent 可独立完成标准任务
人工只需审批,不需要手动介入
L5自愈
异常自动修复,系统自我进化
Agent 出错后自动回滚并修正,无需人工干预

各等级详解

L1:文档化

  • 你写了 CLAUDE.md,定义了项目规范
  • 但 Agent 经常"无视"文档,按自己的理解做事
  • 人工审查仍然是最主要的质量保障

L2:有门禁

  • Linter 在提交前自动检查代码风格
  • Hooks 在关键操作前后执行校验
  • 不合规的产出会被自动拦截,而不是事后发现

L3:可观测

  • 每次会话的完整轨迹都被记录
  • 可以回放 Agent 的决策过程
  • 出了问题,5 分钟内定位根因

L4:自主

  • 标准任务(如修 Bug、加功能)Agent 可独立完成
  • 人工只需做最终审批
  • 异常情况仍然需要人工介入

L5:自愈

  • Agent 出错后自动回滚并尝试修正
  • 系统根据历史数据持续优化自身配置
  • 人工几乎只在战略层面参与

不能跳级

成熟度模型的核心规则:不能跳级

  • 没有 L1 的文档化,L2 的门禁无据可依
  • 没有 L2 的门禁,L3 的可观测无法生效
  • 没有 L3 的可观测,L4 的自主是"盲飞"
  • 没有 L4 的自主经验,L5 的自愈无从谈起

每一级都是下一级的地基。试图跳级只会制造脆弱的系统。


八步实施框架

从零开始搭建 Harness,按这个顺序走:

1写 CLAUDE.md把项目核心规范、约定、约束写下来L1 基础
2配 Custom Linter让代码风格检查自动化L2 门禁
3加 Hooks在关键节点插入自动化校验L2 门禁
4加 Guardrails划定 Agent 的行为边界,防止越界L2 门禁
5接观测平台记录全链路行为,建立诊断能力L3 可观测
6设 Sprint Contract明确每次任务的契约和验收标准L4 自主基础
7跑 A/B 评估对比有无 Harness 的效果差异,持续优化L3→L4
8建立自愈机制基于历史数据,让系统自动修复常见问题L5 自愈
第 1 周步骤 1-2L1→L2
第 2-3 周步骤 3-5L2→L3
第 4-6 周步骤 6-7L3→L4
持续步骤 8L5 自愈

本节小结

📌 本节核心要点

  • 五级模型:L1 文档化 → L2 有门禁 → L3 可观测 → L4 自主 → L5 自愈
  • 核心规则:不能跳级,每一级都是下一级的地基
  • 八步框架:从写 CLAUDE.md 到建立自愈,按顺序推进
  • 实施节奏:按周迭代,不要一次性做完全部步骤
  • 关键认知:成熟度不是标签,是能力。到达某个等级意味着你真的具备了对应能力

思考题

  1. 你当前团队的 Harness 处于哪个成熟度等级?为什么?要升到下一级,最缺什么?
  2. "不能跳级"这个规则背后,你认为最根本的原因是什么?如果你尝试跳级,最可能出现什么问题?
  3. 八步框架中,你觉得哪一步最容易被忽视?忽视它会在后续步骤中造成什么连锁反应?

下一节预告

案例、评估、成熟度——我们看到了 Harness 的现状。但未来呢?下一节进入第七阶段,看看深度洞察——为什么模型越强,Harness 反而越重要?

下一节:7.1 深度洞察