5.4 系统化测试

引言

好 Prompt 不是一次写出来的，而是反复测试优化出来的。

你写了一个 Prompt，用一个案例测试，效果不错。但换一个案例，可能就不行了。

系统化测试，才能确保 Prompt 真正好用。

📌 本节核心要点

用多个案例测试同一个 Prompt，发现问题，迭代优化
三种测试方法：多案例测试、边界测试、对比测试
流程：测试 → 记录 → 分析 → 修改 → 再测试

技巧核心

用多个案例测试同一个 Prompt，发现问题，迭代优化。

测试方法

1. 多案例测试

用同一个 Prompt 测试 3-5 个不同输入，看结果是否稳定。

Prompt：「请将以下评论分类为正面/负面/中性」

测试案例 1：「服务态度很好」→ 正面 ✓
测试案例 2：「质量太差」→ 负面 ✓
测试案例 3：「还行吧，没什么特别」→ 中性 ✓
测试案例 4：「菜不错，但等太久」→ ?

案例 4 模棱两可，看 AI 能否正确处理。

2. 边界测试

用极端情况测试 Prompt。

边界案例：
- 超长输入（5000 字）
- 空输入
- 格式奇怪的输入
- 包含特殊字符的输入

3. 对比测试

修改 Prompt 后，对比新旧版本效果。

旧版 Prompt：「分类评论」
新版 Prompt：「分类评论，参考示例：...」

对比：新版在模棱两可案例上效果更好

测试记录模板

测试案例	输入	输出	是否满意	问题
案例 1	...	...	✓	-
案例 2	...	...	✗	分类错误
案例 3	...	...	✓	-

发现问题后：分析原因 → 修改 Prompt → 再测试 → 重复直到满意。

优化流程

Prompt 优化迭代流程

写初版 Prompt → 测试 3-5 个普通案例 → 测试 2-3 个边界案例 → 记录问题 → 分析问题原因 → 修改 Prompt → 再测试（用同样的案例）→ 重复直到满意 → 固化为模板

版本迭代示例

v1.0 「分类评论」→ 模棱两可案例出错

v2.0 「分类评论，参考示例：...」→ 模棱两可案例改善，但边界案例仍出错

v3.0 「分类评论，参考示例：...，如不确定则标注"混合"」→ 全部通过 ✓

迭代核心：每次只改一个问题，用同样的案例回归测试。

本节小结

要点	说明
核心	多案例测试、迭代优化
方法	多案例测试、边界测试、对比测试
流程	测试 → 记录 → 分析 → 修改 → 再测试

练习

写一个「评论分类」的 Prompt
用 5 个案例测试（2 正面、2 负面、1 模棱两可）
记录结果，发现问题时修改 Prompt

阶段总结：进阶技巧

技巧	适用场景
多轮细化	小修改、调整细节
让 AI 反问	不了解具体情况时
用 AI 改进	Prompt 写不好时
系统化测试	确保 Prompt 稳定有效

下一阶段

进阶技巧学完，下一阶段学习Agent 提示词入门。

→ 下一阶段：Agent 提示词入门

5.4 系统化测试 ​

引言 ​

技巧核心 ​

测试方法 ​

1. 多案例测试 ​

2. 边界测试 ​

3. 对比测试 ​

测试记录模板 ​

优化流程 ​

本节小结 ​

练习 ​

阶段总结：进阶技巧 ​

下一阶段 ​