Skip to content

4.2 成本与性能权衡

小林的方案要上线了,他需要算清楚成本——Skill 的 token 成本和 MCP 的运维成本。


成本结构对比

Skill 成本
持续每轮对话都消耗 Skill 的 token
线性Skill 越长 → 每轮成本越高
叠加Skill 越多 → 成本叠加
隐性成本不显眼,但累积可观
MCP 成本
按需只在调用时产生成本
固定Server 运行有基础运维成本
可预测调用次数 × 单次成本
显性Server 部署、API 调用都有账单

Token 成本计算

以安全代码审查为例,假设每天审查 10 个 PR:

Skill 方案
Skill 指令
5K
5,000
PR 代码
30K
30,000
AI 输出
15K
15,000
每日总 token
~50K
~50,000
MCP 方案
工具描述
2K
2,000
PR 代码
30K
30,000
历史数据
5K
5,000
AI 输出
15K
15,000
每日总 token
~47K
~47,000
Skill + MCP 方案
Skill 指令
5K
5,000
工具描述
2K
2,000
PR 代码
30K
30,000
历史数据
5K
5,000
AI 输出
15K
15,000
每日总 token
~52K
~52,000

关键发现:Skill + MCP 方案的 token 成本不是 1+1=2,而是接近单独使用的较大值——因为 Skill 指令和 MCP 工具调用在同一次对话中共享上下文。


优化策略

Skill 成本优化

Progressive Disclosure
只注入相关的 Skill 部分,减少 30-60% token
精简措辞
用"必须"替代"请确保你一定要",减少冗余
合并 Skill
多个小 Skill 合并为一个大 Skill,减少重复内容
按需激活
只在相关任务时激活 Skill,不是每次都注入

MCP 成本优化

连接池
复用连接,减少建立连接的开销
缓存
相同查询缓存结果,减少 API 调用
批量操作
一次获取多个 PR,减少调用次数
懒加载
按需启动 Server,空闲时关闭

性能权衡

SkillMCP
响应延迟
只是文本注入需要工具调用+网络往返
可靠性
AI 可能忽略工具执行是确定性的
可扩展性
token 预算有限加 Server 不加 token
冷启动
无(随对话开始)Server 需要启动

本节核心要点

  • Skill 成本是持续的(每轮都消耗),MCP 成本是按需的(调用时才产生)
  • Skill + MCP 的 token 成本不是简单叠加,而是接近较大值
  • Skill 优化方向:精简、渐进披露、按需激活
  • MCP 优化方向:连接池、缓存、批量、懒加载

← 上一节:失效模式与调试 | 目录 | 下一节:企业落地策略 →