6.2 学术验证与评估

行业案例展示了 Harness 的实战威力，但科学需要可复现的验证。本节看学术层面的证据和评估方法。

学术验证：ClawEnvKit 研究

🔬ClawEnvKit 学术验证

实验设计

4 个模型家族（Claude、GPT、Gemini、开源）8 种不同框架配置1040 个测试环境

核心发现

📈优化 Harness 后，所有模型家族均有提升

📊最高提升 15.7pp（个百分点）

⚖️即使最弱的模型配合优质 Harness，也能接近强模型的裸跑表现

💡 结论Harness 的效果不是"锦上添花"，而是"量级提升"

评估思维：Harness 也需要测试

很多团队花了大量精力搭建 Harness，却从不评估它的效果。这就像写了一堆测试用例却不看测试结果。

Harness 评估的核心原则：

可量化：每个组件的效果必须能量化
可对比：有 Harness vs 无 Harness 的 A/B 对比
可迭代：根据评估结果持续优化，不是一锤子买卖

评估陷阱

不要只看"Agent 完成了任务"，要看：

完成任务用了几轮对话？
产出代码的 lint 通过率是多少？
是否产生了不必要的副作用？
人工介入的频率有多高？

评估平台简介

Langfuse开源、可自部署、追踪完整需要数据自主可控的团队

Arize Phoenix本地优先、可视化强快速诊断 Agent 行为

Maxim AI端到端评估、多维度打分需要综合评估的生产环境

Braintrust代码优先、CI/CD 集成重视工程化流程的团队

刚起步用 Arize Phoenix，零成本快速上手

有规模用 Langfuse，开源可控可扩展

重生产用 Maxim AI 或 Braintrust，端到端保障

诊断信号表

当你怀疑 Harness 出了问题时，看这些信号：

🔄反复重试同一操作Hooks 未正确拦截错误路径添加或收紧 Guardrails

⚠️产出代码频繁 Lint 报错Linter 配置未覆盖或未强制执行强化 Custom Linter 规则

💬对话轮次远超预期CLAUDE.md 指引不足，Agent 反复探索补充 CLAUDE.md 的关键约束

📝修改了不该改的文件权限边界未定义添加文件保护规则

🛑人工介入率居高不下整体 Harness 架构需要重新审视回到成熟度模型评估当前阶段

本节小结

📌 本节核心要点

学术验证：ClawEnvKit 研究证实，Harness 优化可带来最高 15.7pp 的提升
评估思维：Harness 本身也需要测试、量化、迭代
评估平台：Langfuse、Arize Phoenix、Maxim AI、Braintrust 各有适用场景
诊断信号：5 大信号帮助快速定位 Harness 问题并采取行动
核心认知：不评估的 Harness = 不存在的 Harness

思考题

ClawEnvKit 研究中，"即使最弱的模型配合优质 Harness 也能接近强模型裸跑"，这个发现对你选择模型和投入 Harness 有什么影响？
如果你当前的团队要引入 Harness 评估，会选择哪个平台？为什么？你会追踪哪些指标？
诊断信号表中，你觉得哪个信号最容易被忽视？忽视它会造成什么后果？

下一节预告

知道怎么评估了，但怎么判断自己的 Harness 到了什么水平？下一节我们看成熟度模型——从 L1 到 L5 的进阶路径。

→ 下一节：6.3 成熟度模型

6.2 学术验证与评估 ​

学术验证：ClawEnvKit 研究 ​

评估思维：Harness 也需要测试 ​

评估平台简介 ​

诊断信号表 ​

本节小结 ​

思考题 ​

下一节预告 ​