1.1 为什么需要 Harness Engineering?
引言:一个令人困惑的现象
你写了一个完美的 Prompt,提供了详尽的 Context,Agent 还是翻车了。
它删了不该删的文件、绕过了安全检查、自信地输出了错得离谱的代码——而你以为已经把规则写得够清楚了。
问题到底出在哪?
三个阶段的演进
AI 应用开发经历了三个阶段,每一阶段都在解决上一阶段的瓶颈:
1Prompt Engineering2022-2024
📝 写好指令
单轮交互,质量取决于措辞
2Context Engineering2025
📚 设计信息环境
多轮交互,但缺乏生命周期管理
3Harness Engineering2026
🔧 构建运行时系统
可靠、可控、可复现
数据告诉你:环境 > 指令
三组数据证明 Harness 的威力
实习生类比
把 AI Agent 想象成一个实习生:
Prompt口头指令"帮我写个报告"实习生可能写对,也可能写错
Context参考文档给他看模板、往期报告他能模仿,但细节容易出错
Harness工位 + CI + 代码审查配好电脑、装好 Linter、设置 PR 审批流他想犯错都难
口头指令再清楚,实习生没有工具和流程保障,依然会犯错。真正决定输出质量的是他所在的环境,不只是你对他说的话。
核心洞察
🔴 核心洞察
AI Agent 的可靠性瓶颈不在模型,而在环境。
Prompt 决定了 Agent "想做什么",Harness 决定了 Agent "能做什么"和"不能做什么"。
当一个无状态的模型被放进一个有约束、有反馈、有记忆的运行时环境,它的行为从"不可预测"变成"可控可靠"。
本节小结
📌 本节核心要点
- 三阶段演进:Prompt → Context → Harness,每层解决上一层的瓶颈
- 数据验证:LangChain +13.7pp、Hashline 6.7%→68.3%、OpenAI 100 万行零手写
- 实习生类比:Prompt=口头指令,Context=参考文档,Harness=工位+CI+审查
- 核心洞察:可靠性瓶颈在环境,不在模型
思考题
- 回想你使用 AI Agent 的经历,有没有遇到过"Prompt 写得很好但结果仍然出错"的情况?出错的原因是模型能力不足,还是环境缺乏约束?
- 如果把 LangChain 的实验反过来——保持 Harness 不变,只优化 Prompt——你认为提升会有多大?为什么?
- "约束让 AI 更强"这个观点,和你直觉一致吗?你能想到生活中的类比吗?
下一节预告
了解了"为什么需要",下一节我们正式定义——Harness Engineering 到底是什么? 它和 Context Engineering 有什么本质区别?