Skip to content

1.1 为什么需要 Harness Engineering?

引言:一个令人困惑的现象

你写了一个完美的 Prompt,提供了详尽的 Context,Agent 还是翻车了。

它删了不该删的文件、绕过了安全检查、自信地输出了错得离谱的代码——而你以为已经把规则写得够清楚了。

问题到底出在哪?


三个阶段的演进

AI 应用开发经历了三个阶段,每一阶段都在解决上一阶段的瓶颈:

1Prompt Engineering2022-2024

📝 写好指令

单轮交互,质量取决于措辞

2Context Engineering2025

📚 设计信息环境

多轮交互,但缺乏生命周期管理

3Harness Engineering2026

🔧 构建运行时系统

可靠、可控、可复现


数据告诉你:环境 > 指令

📊

三组数据证明 Harness 的威力

LangChain30→5名
Hashline从6.7%
OpenAI零手写

实习生类比

把 AI Agent 想象成一个实习生:

Prompt口头指令"帮我写个报告"实习生可能写对,也可能写错
Context参考文档给他看模板、往期报告他能模仿,但细节容易出错
Harness工位 + CI + 代码审查配好电脑、装好 Linter、设置 PR 审批流他想犯错都难

口头指令再清楚,实习生没有工具和流程保障,依然会犯错。真正决定输出质量的是他所在的环境,不只是你对他说的话。


核心洞察

🔴 核心洞察

AI Agent 的可靠性瓶颈不在模型,而在环境。

Prompt 决定了 Agent "想做什么",Harness 决定了 Agent "能做什么"和"不能做什么"。

当一个无状态的模型被放进一个有约束、有反馈、有记忆的运行时环境,它的行为从"不可预测"变成"可控可靠"。


本节小结

📌 本节核心要点

  • 三阶段演进:Prompt → Context → Harness,每层解决上一层的瓶颈
  • 数据验证:LangChain +13.7pp、Hashline 6.7%→68.3%、OpenAI 100 万行零手写
  • 实习生类比:Prompt=口头指令,Context=参考文档,Harness=工位+CI+审查
  • 核心洞察:可靠性瓶颈在环境,不在模型

思考题

  1. 回想你使用 AI Agent 的经历,有没有遇到过"Prompt 写得很好但结果仍然出错"的情况?出错的原因是模型能力不足,还是环境缺乏约束?
  2. 如果把 LangChain 的实验反过来——保持 Harness 不变,只优化 Prompt——你认为提升会有多大?为什么?
  3. "约束让 AI 更强"这个观点,和你直觉一致吗?你能想到生活中的类比吗?

下一节预告

了解了"为什么需要",下一节我们正式定义——Harness Engineering 到底是什么? 它和 Context Engineering 有什么本质区别?

下一节:Harness Engineering 是什么?