Skip to content

5.4 系统化测试

引言

好 Prompt 不是一次写出来的,而是反复测试优化出来的。

你写了一个 Prompt,用一个案例测试,效果不错。但换一个案例,可能就不行了。

系统化测试,才能确保 Prompt 真正好用。


📌 本节核心要点

  • 用多个案例测试同一个 Prompt,发现问题,迭代优化
  • 三种测试方法:多案例测试、边界测试、对比测试
  • 流程:测试 → 记录 → 分析 → 修改 → 再测试

技巧核心

用多个案例测试同一个 Prompt,发现问题,迭代优化。


测试方法

1. 多案例测试

用同一个 Prompt 测试 3-5 个不同输入,看结果是否稳定。

Prompt:「请将以下评论分类为正面/负面/中性」

测试案例 1:「服务态度很好」→ 正面 ✓
测试案例 2:「质量太差」→ 负面 ✓
测试案例 3:「还行吧,没什么特别」→ 中性 ✓
测试案例 4:「菜不错,但等太久」→ ?

案例 4 模棱两可,看 AI 能否正确处理。

2. 边界测试

用极端情况测试 Prompt。

边界案例:
- 超长输入(5000 字)
- 空输入
- 格式奇怪的输入
- 包含特殊字符的输入

3. 对比测试

修改 Prompt 后,对比新旧版本效果。

旧版 Prompt:「分类评论」
新版 Prompt:「分类评论,参考示例:...」

对比:新版在模棱两可案例上效果更好

测试记录模板

测试案例输入输出是否满意问题
案例 1......-
案例 2......分类错误
案例 3......-

发现问题后:分析原因 → 修改 Prompt → 再测试 → 重复直到满意。


优化流程

Prompt 优化迭代流程

写初版 Prompt → 测试 3-5 个普通案例 → 测试 2-3 个边界案例 → 记录问题 → 分析问题原因 → 修改 Prompt → 再测试(用同样的案例)→ 重复直到满意 → 固化为模板

版本迭代示例

v1.0 「分类评论」→ 模棱两可案例出错

v2.0 「分类评论,参考示例:...」→ 模棱两可案例改善,但边界案例仍出错

v3.0 「分类评论,参考示例:...,如不确定则标注"混合"」→ 全部通过 ✓

迭代核心:每次只改一个问题,用同样的案例回归测试。


本节小结

要点说明
核心多案例测试、迭代优化
方法多案例测试、边界测试、对比测试
流程测试 → 记录 → 分析 → 修改 → 再测试

练习

  1. 写一个「评论分类」的 Prompt
  2. 用 5 个案例测试(2 正面、2 负面、1 模棱两可)
  3. 记录结果,发现问题时修改 Prompt

阶段总结:进阶技巧

技巧适用场景
多轮细化小修改、调整细节
让 AI 反问不了解具体情况时
用 AI 改进Prompt 写不好时
系统化测试确保 Prompt 稳定有效

下一阶段

进阶技巧学完,下一阶段学习Agent 提示词入门

下一阶段:Agent 提示词入门