Skip to content

4.3 成本优化

引言:Agent 的账单会吓到你

一个 Agent 一次调用可能不贵,但 Agent 系统是持续运行的——每分钟几十次调用,每天数千次,每月的账单可能比你的云服务器还贵。

成本优化不是省钱,是让 Agent 系统可持续运行的必要条件。


四大策略

策略一Prompt Caching💾
缓存复用——相同前缀的 Prompt 不重复计算 token
成本降低 41%-80%延迟降低 60%+
将稳定的指令放在 Prompt 前部,确保命中缓存前缀
策略二Model Routing🔀
模型路由——不同任务用不同能力的模型
综合成本降低 50%-70%
简单任务用小模型,复杂任务才调大模型
策略三Context Compression🗜️
上下文压缩——摘要和裁剪历史上下文
长任务成本降低 40%-60%
滑动窗口 + 摘要 + 只保留关键信息
策略四Sub-Agent Isolation🔒
子 Agent 隔离——大任务拆给专门的子 Agent
效果避免上下文膨胀
主 Agent 分发任务,子 Agent 独立运行并返回结果

模型路由:架构设计,不是事后优化

模型路由不是"能省就省"的省钱技巧,而是系统架构层面的设计决策

Planner(规划者)强模型(Opus/Gemini Ultra)规划需要深度推理,不能省
Worker(执行者)编程模型(Sonnet/GPT-4o-mini)编码任务量大但模式化
Evaluator(评估者)廉价模型(Haiku/GPT-4o-mini)判断通过/不通过,不需要深度推理
Lint/格式检查本地模型(Ollama)规则明确,无需调用云端 API
📊

成本对比(每 1000 次调用)

全用 Opus
Model Routing

实战案例

案例:OpenClaw 的 97% 成本削减

OpenClaw 是一个开源 Agent 项目,通过以下组合策略将月度 API 成本从 $2000 降至 $60:

  1. Prompt Caching:系统 Prompt 缓存命中率达 90%
  2. Model Routing:80% 的调用路由到 Haiku,仅 5% 走 Opus
  3. Context Compression:对话历史压缩到原来的 30%
  4. Sub-Agent 隔离:每个子任务独立上下文,避免级联膨胀

关键洞察:不是每个任务都需要最聪明的模型。80% 的工作用 20% 的成本就能完成。


MCP 的隐藏成本

MCP 隐藏成本

MCP Server 带来了便利,但也有隐藏成本:

  1. 延迟成本:每个 MCP Server 调用都是一次 I/O,多个 Server 串行调用会显著增加延迟
  2. Token 成本:MCP Server 返回的数据全部进入上下文窗口,可能快速填满 token 预算
  3. 维护成本:每个外部 MCP Server 都是依赖项,需要版本管理和故障预案
  4. 安全成本:更多 Server = 更大攻击面,每个 Server 都需要权限审查

建议:只启用真正需要的 MCP Server,定期审计使用情况。


本节小结

📌 本节核心要点

  • 四大策略:缓存复用、模型路由、上下文压缩、子 Agent 隔离
  • 模型路由是架构设计,不是省钱技巧——不同角色用不同模型
  • 80% 的工作用 20% 的成本就能完成
  • MCP 带来便利但也有隐藏成本,需要定期审计

思考题

  1. 你的 Agent 系统中,哪 20% 的调用消耗了 80% 的成本?怎么优化?
  2. 如果模型路由把一个本该用强模型的任务分给了弱模型,后果是什么?怎么检测和回退?
  3. MCP Server 的延迟和 token 成本,你有没有做过量化测量?

下一节预告

架构、工具、安全、成本都讲了,接下来进入实战——六步实践路径。

下一节:六步实践路径