1.1 为什么需要 Harness Engineering？

引言：一个令人困惑的现象

你写了一个完美的 Prompt，提供了详尽的 Context，Agent 还是翻车了。

它删了不该删的文件、绕过了安全检查、自信地输出了错得离谱的代码——而你以为已经把规则写得够清楚了。

问题到底出在哪？

三个阶段的演进

AI 应用开发经历了三个阶段，每一阶段都在解决上一阶段的瓶颈：

1Prompt Engineering2022-2024

📝 写好指令

单轮交互，质量取决于措辞

2Context Engineering2025

📚 设计信息环境

多轮交互，但缺乏生命周期管理

3Harness Engineering2026

🔧 构建运行时系统

可靠、可控、可复现

数据告诉你：环境 > 指令

📊

三组数据证明 Harness 的威力

LangChain30→5名

Hashline从6.7%

OpenAI零手写

实习生类比

把 AI Agent 想象成一个实习生：

Prompt口头指令"帮我写个报告"实习生可能写对，也可能写错

Context参考文档给他看模板、往期报告他能模仿，但细节容易出错

Harness工位 + CI + 代码审查配好电脑、装好 Linter、设置 PR 审批流他想犯错都难

口头指令再清楚，实习生没有工具和流程保障，依然会犯错。真正决定输出质量的是他所在的环境，不只是你对他说的话。

核心洞察

🔴 核心洞察

AI Agent 的可靠性瓶颈不在模型，而在环境。

Prompt 决定了 Agent "想做什么"，Harness 决定了 Agent "能做什么"和"不能做什么"。

当一个无状态的模型被放进一个有约束、有反馈、有记忆的运行时环境，它的行为从"不可预测"变成"可控可靠"。

本节小结

📌 本节核心要点

三阶段演进：Prompt → Context → Harness，每层解决上一层的瓶颈
数据验证：LangChain +13.7pp、Hashline 6.7%→68.3%、OpenAI 100 万行零手写
实习生类比：Prompt=口头指令，Context=参考文档，Harness=工位+CI+审查
核心洞察：可靠性瓶颈在环境，不在模型

思考题

回想你使用 AI Agent 的经历，有没有遇到过"Prompt 写得很好但结果仍然出错"的情况？出错的原因是模型能力不足，还是环境缺乏约束？
如果把 LangChain 的实验反过来——保持 Harness 不变，只优化 Prompt——你认为提升会有多大？为什么？
"约束让 AI 更强"这个观点，和你直觉一致吗？你能想到生活中的类比吗？

下一节预告

了解了"为什么需要"，下一节我们正式定义——Harness Engineering 到底是什么？ 它和 Context Engineering 有什么本质区别？

→ 下一节：Harness Engineering 是什么？

1.1 为什么需要 Harness Engineering？ ​

引言：一个令人困惑的现象 ​

三个阶段的演进 ​

数据告诉你：环境 > 指令 ​

三组数据证明 Harness 的威力

实习生类比 ​

核心洞察 ​

本节小结 ​

思考题 ​

下一节预告 ​