4.3 成本优化

引言：Agent 的账单会吓到你

一个 Agent 一次调用可能不贵，但 Agent 系统是持续运行的——每分钟几十次调用，每天数千次，每月的账单可能比你的云服务器还贵。

成本优化不是省钱，是让 Agent 系统可持续运行的必要条件。

四大策略

策略一Prompt Caching💾

缓存复用——相同前缀的 Prompt 不重复计算 token

成本降低 41%-80%延迟降低 60%+

将稳定的指令放在 Prompt 前部，确保命中缓存前缀

策略二Model Routing🔀

模型路由——不同任务用不同能力的模型

综合成本降低 50%-70%

简单任务用小模型，复杂任务才调大模型

策略三Context Compression🗜️

上下文压缩——摘要和裁剪历史上下文

长任务成本降低 40%-60%

滑动窗口 + 摘要 + 只保留关键信息

策略四Sub-Agent Isolation🔒

子 Agent 隔离——大任务拆给专门的子 Agent

效果避免上下文膨胀

主 Agent 分发任务，子 Agent 独立运行并返回结果

模型路由：架构设计，不是事后优化

模型路由不是"能省就省"的省钱技巧，而是系统架构层面的设计决策。

Planner（规划者）强模型（Opus/Gemini Ultra）规划需要深度推理，不能省

Worker（执行者）编程模型（Sonnet/GPT-4o-mini）编码任务量大但模式化

Evaluator（评估者）廉价模型（Haiku/GPT-4o-mini）判断通过/不通过，不需要深度推理

Lint/格式检查本地模型（Ollama）规则明确，无需调用云端 API

📊

成本对比（每 1000 次调用）

全用 Opus

Model Routing

实战案例

案例：OpenClaw 的 97% 成本削减

OpenClaw 是一个开源 Agent 项目，通过以下组合策略将月度 API 成本从 $2000 降至 $60：

Prompt Caching：系统 Prompt 缓存命中率达 90%
Model Routing：80% 的调用路由到 Haiku，仅 5% 走 Opus
Context Compression：对话历史压缩到原来的 30%
Sub-Agent 隔离：每个子任务独立上下文，避免级联膨胀

关键洞察：不是每个任务都需要最聪明的模型。80% 的工作用 20% 的成本就能完成。

MCP 的隐藏成本

MCP 隐藏成本

MCP Server 带来了便利，但也有隐藏成本：

延迟成本：每个 MCP Server 调用都是一次 I/O，多个 Server 串行调用会显著增加延迟
Token 成本：MCP Server 返回的数据全部进入上下文窗口，可能快速填满 token 预算
维护成本：每个外部 MCP Server 都是依赖项，需要版本管理和故障预案
安全成本：更多 Server = 更大攻击面，每个 Server 都需要权限审查

建议：只启用真正需要的 MCP Server，定期审计使用情况。

本节小结

📌 本节核心要点

四大策略：缓存复用、模型路由、上下文压缩、子 Agent 隔离
模型路由是架构设计，不是省钱技巧——不同角色用不同模型
80% 的工作用 20% 的成本就能完成
MCP 带来便利但也有隐藏成本，需要定期审计

思考题

你的 Agent 系统中，哪 20% 的调用消耗了 80% 的成本？怎么优化？
如果模型路由把一个本该用强模型的任务分给了弱模型，后果是什么？怎么检测和回退？
MCP Server 的延迟和 token 成本，你有没有做过量化测量？

下一节预告

架构、工具、安全、成本都讲了，接下来进入实战——六步实践路径。

→ 下一节：六步实践路径

4.3 成本优化 ​

引言：Agent 的账单会吓到你 ​

四大策略 ​

模型路由：架构设计，不是事后优化 ​

成本对比（每 1000 次调用）

实战案例 ​

MCP 的隐藏成本 ​

本节小结 ​

思考题 ​

下一节预告 ​