5.4 系统化测试
引言
好 Prompt 不是一次写出来的,而是反复测试优化出来的。
你写了一个 Prompt,用一个案例测试,效果不错。但换一个案例,可能就不行了。
系统化测试,才能确保 Prompt 真正好用。
📌 本节核心要点
- 用多个案例测试同一个 Prompt,发现问题,迭代优化
- 三种测试方法:多案例测试、边界测试、对比测试
- 流程:测试 → 记录 → 分析 → 修改 → 再测试
技巧核心
用多个案例测试同一个 Prompt,发现问题,迭代优化。
测试方法
1. 多案例测试
用同一个 Prompt 测试 3-5 个不同输入,看结果是否稳定。
Prompt:「请将以下评论分类为正面/负面/中性」
测试案例 1:「服务态度很好」→ 正面 ✓
测试案例 2:「质量太差」→ 负面 ✓
测试案例 3:「还行吧,没什么特别」→ 中性 ✓
测试案例 4:「菜不错,但等太久」→ ?案例 4 模棱两可,看 AI 能否正确处理。
2. 边界测试
用极端情况测试 Prompt。
边界案例:
- 超长输入(5000 字)
- 空输入
- 格式奇怪的输入
- 包含特殊字符的输入3. 对比测试
修改 Prompt 后,对比新旧版本效果。
旧版 Prompt:「分类评论」
新版 Prompt:「分类评论,参考示例:...」
对比:新版在模棱两可案例上效果更好测试记录模板
| 测试案例 | 输入 | 输出 | 是否满意 | 问题 |
|---|---|---|---|---|
| 案例 1 | ... | ... | ✓ | - |
| 案例 2 | ... | ... | ✗ | 分类错误 |
| 案例 3 | ... | ... | ✓ | - |
发现问题后:分析原因 → 修改 Prompt → 再测试 → 重复直到满意。
优化流程
Prompt 优化迭代流程
写初版 Prompt → 测试 3-5 个普通案例 → 测试 2-3 个边界案例 → 记录问题 → 分析问题原因 → 修改 Prompt → 再测试(用同样的案例)→ 重复直到满意 → 固化为模板
版本迭代示例
v1.0 「分类评论」→ 模棱两可案例出错
v2.0 「分类评论,参考示例:...」→ 模棱两可案例改善,但边界案例仍出错
v3.0 「分类评论,参考示例:...,如不确定则标注"混合"」→ 全部通过 ✓
迭代核心:每次只改一个问题,用同样的案例回归测试。
本节小结
| 要点 | 说明 |
|---|---|
| 核心 | 多案例测试、迭代优化 |
| 方法 | 多案例测试、边界测试、对比测试 |
| 流程 | 测试 → 记录 → 分析 → 修改 → 再测试 |
练习
- 写一个「评论分类」的 Prompt
- 用 5 个案例测试(2 正面、2 负面、1 模棱两可)
- 记录结果,发现问题时修改 Prompt
阶段总结:进阶技巧
| 技巧 | 适用场景 |
|---|---|
| 多轮细化 | 小修改、调整细节 |
| 让 AI 反问 | 不了解具体情况时 |
| 用 AI 改进 | Prompt 写不好时 |
| 系统化测试 | 确保 Prompt 稳定有效 |
下一阶段
进阶技巧学完,下一阶段学习Agent 提示词入门。