Skip to content

6.1 产业案例

已经理解了 Harness,也知道了怎么搭建,现在看行业最前沿。


OpenAI:5 个月的工程奇迹

OpenAI🚀
5 个月团队从 3 人扩展到 7 人
100 万行代码产出
3.5 PR/人/天远超传统团队
Repo as Truth仓库即真理,所有决策以代码为准
Custom Linter定制化 Linter 在提交前拦截问题
Ephemeral Env临时环境即用即弃,避免环境污染
Auto-cleanup自动清理机制,保持仓库整洁
💡不是 AI 替人写代码,而是 Harness 让小团队拥有大产能

Anthropic:从 $9 到 $200 的教训

Anthropic🧪
架构Init Agent + Coding Agent 双 Agent 协作GAN 式对抗验证——一个 Agent 写代码,一个 Agent 审代码
❌ $9 方案broken
便宜但产出 broken,修 Bug 成本远超节省
✅ $200 方案works
贵但产出 works,可直接上线
💡贵 20 倍,但真的能用——省钱不是目的,能用才是

Stripe:千级 PR 流水线

Stripe
1000+每周合并 PR
400+MCP 工具
10 秒Devbox 启动
入口Slack → PR,一条消息触发完整开发流程
架构Minion 架构——大量小型 Agent 各司其职
工具MCP Toolshed:400+ 工具覆盖开发全链路
💡Harness 的终极形态是流水线——从需求到上线,全链路自动化

LangChain:从第 30 名到第 5 名

LangChain📈
初始排名第 30 名
优化后第 5 名+13.7pp
锁定模型不变,只优化 Harness
改进 Linter添加 Hooks完善 CLAUDE.md强化 Guardrails
💡同样的模型,更好的 Harness,效果天差地别——优化 Harness 的 ROI 远超换模型

案例对比总结

OpenAIRepo as Truth + 自动化3.5 PR/人/天小团队大产能
Anthropic双 Agent + Sprint Contract$9 broken vs $200 works贵但能用
StripeMinion + MCP Toolshed1000+ PR/周全链路自动化
LangChain锁模型 + 优 Harness30th → 5th (+13.7pp)优化 Harness ROI 最高

本节小结

📌 本节核心要点

  • OpenAI:仓库即真理 + 自动化 Linter + 临时环境 = 小团队大产能
  • Anthropic:GAN 式对抗验证,$9 的 broken 方案不如 $200 的可用方案
  • Stripe:Minion 架构 + 400+ MCP 工具 = 千级 PR 流水线
  • LangChain:锁定模型只优化 Harness,排名提升 25 位
  • 共同规律:头部公司的共同点不是用最强的模型,而是建最强的 Harness

思考题

  1. Anthropic 的 $9 vs $200 案例中,"贵 20 倍但真的能用"对你日常项目有什么启发?你是否也遇到过"便宜但不可用"的情况?
  2. LangChain 锁定模型只优化 Harness 就提升了 13.7pp,这说明什么?在你当前的项目中,是换模型的 ROI 高还是优化 Harness 的 ROI 高?
  3. 如果让你为当前团队设计 Harness,你会最优先借鉴哪家公司的做法?为什么?

下一节预告

产业案例展示了 Harness 的实战威力,但数据说话才够硬。下一节我们看学术验证与评估——Harness 的效果如何量化。

下一节:6.2 学术验证与评估