6.3 成熟度模型

评估是看当下，成熟度是看路径。你的 Harness 在哪个阶段？下一步该往哪走？

QA 成熟度五级模型

L1文档化

核心流程有文档记录

写了 CLAUDE.md，但 Agent 经常不遵守

↓

L2有门禁

关键节点有自动检查

Linter + Hooks 生效，不合规代码被自动拦截

↓

L3可观测

全链路行为可追踪可诊断

知道 Agent 每一步在做什么，问题能快速定位

↓

L4自主

Agent 可独立完成标准任务

人工只需审批，不需要手动介入

↓

L5自愈

异常自动修复，系统自我进化

Agent 出错后自动回滚并修正，无需人工干预

各等级详解

L1：文档化

你写了 CLAUDE.md，定义了项目规范
但 Agent 经常"无视"文档，按自己的理解做事
人工审查仍然是最主要的质量保障

L2：有门禁

Linter 在提交前自动检查代码风格
Hooks 在关键操作前后执行校验
不合规的产出会被自动拦截，而不是事后发现

L3：可观测

每次会话的完整轨迹都被记录
可以回放 Agent 的决策过程
出了问题，5 分钟内定位根因

L4：自主

标准任务（如修 Bug、加功能）Agent 可独立完成
人工只需做最终审批
异常情况仍然需要人工介入

L5：自愈

Agent 出错后自动回滚并尝试修正
系统根据历史数据持续优化自身配置
人工几乎只在战略层面参与

不能跳级

成熟度模型的核心规则：不能跳级。

没有 L1 的文档化，L2 的门禁无据可依
没有 L2 的门禁，L3 的可观测无法生效
没有 L3 的可观测，L4 的自主是"盲飞"
没有 L4 的自主经验，L5 的自愈无从谈起

每一级都是下一级的地基。试图跳级只会制造脆弱的系统。

八步实施框架

从零开始搭建 Harness，按这个顺序走：

1写 CLAUDE.md把项目核心规范、约定、约束写下来L1 基础

2配 Custom Linter让代码风格检查自动化L2 门禁

3加 Hooks在关键节点插入自动化校验L2 门禁

4加 Guardrails划定 Agent 的行为边界，防止越界L2 门禁

5接观测平台记录全链路行为，建立诊断能力L3 可观测

6设 Sprint Contract明确每次任务的契约和验收标准L4 自主基础

7跑 A/B 评估对比有无 Harness 的效果差异，持续优化L3→L4

8建立自愈机制基于历史数据，让系统自动修复常见问题L5 自愈

第 1 周步骤 1-2L1→L2

第 2-3 周步骤 3-5L2→L3

第 4-6 周步骤 6-7L3→L4

持续步骤 8L5 自愈

本节小结

📌 本节核心要点

五级模型：L1 文档化 → L2 有门禁 → L3 可观测 → L4 自主 → L5 自愈
核心规则：不能跳级，每一级都是下一级的地基
八步框架：从写 CLAUDE.md 到建立自愈，按顺序推进
实施节奏：按周迭代，不要一次性做完全部步骤
关键认知：成熟度不是标签，是能力。到达某个等级意味着你真的具备了对应能力

思考题

你当前团队的 Harness 处于哪个成熟度等级？为什么？要升到下一级，最缺什么？
"不能跳级"这个规则背后，你认为最根本的原因是什么？如果你尝试跳级，最可能出现什么问题？
八步框架中，你觉得哪一步最容易被忽视？忽视它会在后续步骤中造成什么连锁反应？

下一节预告

案例、评估、成熟度——我们看到了 Harness 的现状。但未来呢？下一节进入第七阶段，看看深度洞察——为什么模型越强，Harness 反而越重要？

→ 下一节：7.1 深度洞察

6.3 成熟度模型 ​

QA 成熟度五级模型 ​

各等级详解 ​

L1：文档化 ​

L2：有门禁 ​

L3：可观测 ​

L4：自主 ​

L5：自愈 ​

八步实施框架 ​

本节小结 ​

思考题 ​

下一节预告 ​