Skip to content

6.2 学术验证与评估

行业案例展示了 Harness 的实战威力,但科学需要可复现的验证。本节看学术层面的证据和评估方法。


学术验证:ClawEnvKit 研究

🔬ClawEnvKit 学术验证
实验设计
4 个模型家族(Claude、GPT、Gemini、开源)8 种不同框架配置1040 个测试环境
核心发现
📈优化 Harness 后,所有模型家族均有提升
📊最高提升 15.7pp(个百分点)
⚖️即使最弱的模型配合优质 Harness,也能接近强模型的裸跑表现
💡 结论Harness 的效果不是"锦上添花",而是"量级提升"

评估思维:Harness 也需要测试

很多团队花了大量精力搭建 Harness,却从不评估它的效果。这就像写了一堆测试用例却不看测试结果。

Harness 评估的核心原则

  1. 可量化:每个组件的效果必须能量化
  2. 可对比:有 Harness vs 无 Harness 的 A/B 对比
  3. 可迭代:根据评估结果持续优化,不是一锤子买卖

评估陷阱

不要只看"Agent 完成了任务",要看:

  • 完成任务用了几轮对话?
  • 产出代码的 lint 通过率是多少?
  • 是否产生了不必要的副作用?
  • 人工介入的频率有多高?

评估平台简介

Langfuse开源、可自部署、追踪完整需要数据自主可控的团队
Arize Phoenix本地优先、可视化强快速诊断 Agent 行为
Maxim AI端到端评估、多维度打分需要综合评估的生产环境
Braintrust代码优先、CI/CD 集成重视工程化流程的团队
刚起步用 Arize Phoenix,零成本快速上手
有规模用 Langfuse,开源可控可扩展
重生产用 Maxim AI 或 Braintrust,端到端保障

诊断信号表

当你怀疑 Harness 出了问题时,看这些信号:

🔄反复重试同一操作Hooks 未正确拦截错误路径添加或收紧 Guardrails
⚠️产出代码频繁 Lint 报错Linter 配置未覆盖或未强制执行强化 Custom Linter 规则
💬对话轮次远超预期CLAUDE.md 指引不足,Agent 反复探索补充 CLAUDE.md 的关键约束
📝修改了不该改的文件权限边界未定义添加文件保护规则
🛑人工介入率居高不下整体 Harness 架构需要重新审视回到成熟度模型评估当前阶段

本节小结

📌 本节核心要点

  • 学术验证:ClawEnvKit 研究证实,Harness 优化可带来最高 15.7pp 的提升
  • 评估思维:Harness 本身也需要测试、量化、迭代
  • 评估平台:Langfuse、Arize Phoenix、Maxim AI、Braintrust 各有适用场景
  • 诊断信号:5 大信号帮助快速定位 Harness 问题并采取行动
  • 核心认知:不评估的 Harness = 不存在的 Harness

思考题

  1. ClawEnvKit 研究中,"即使最弱的模型配合优质 Harness 也能接近强模型裸跑",这个发现对你选择模型和投入 Harness 有什么影响?
  2. 如果你当前的团队要引入 Harness 评估,会选择哪个平台?为什么?你会追踪哪些指标?
  3. 诊断信号表中,你觉得哪个信号最容易被忽视?忽视它会造成什么后果?

下一节预告

知道怎么评估了,但怎么判断自己的 Harness 到了什么水平?下一节我们看成熟度模型——从 L1 到 L5 的进阶路径。

下一节:6.3 成熟度模型