引言
GPT-1 和 BERT 证明了预训练的有效性。接下来的问题是:如果模型更大、数据更多,会发生什么? OpenAI 给出了一个大胆的回答——一直放大,直到奇迹出现。从 GPT-1 到 GPT-3,参数量增加了 1000 倍。这个过程伴随着一场关于 AI 安全的激烈争论、一次被批评为「公关噱头」的模型封锁,以及一个令人震惊的发现:规模本身就是一种魔力。
GPT-2(2019.2):「太危险而不能发布」
核心变化
| 维度 | GPT-1 | GPT-2 |
|---|---|---|
| 参数量 | 1.17 亿 | 15 亿 |
| 训练数据 | 5GB(BookCorpus) | 40GB(WebText,Reddit 高质量链接) |
| 层数 | 12 | 48 |
| 注意力头 | 12 | 25 |
| 主要创新 | 预训练-微调 | Zero-shot 学习 |
Zero-shot:不做微调也能做任务
GPT-1 的范式:预训练 → 微调(需要标注数据)
GPT-2 的范式:预训练 → 直接用(不需要标注数据)
例子:
输入:"将以下英文翻译为法文:The cat is on the mat."
GPT-2 直接续写出翻译结果。
原理:模型在大量文本上训练后,已经「见过」了各种任务的例子,
只需要用自然语言描述任务,模型就能执行。「太危险了」:一场关于 AI 安全的风暴
2019 年 2 月,OpenAI 做出了一个史无前例的决定:他们拒绝发布完整的 GPT-2 模型。在论文发布时,OpenAI 发表声明称:"由于对恶意应用的担忧,我们不发布训练好的模型。"他们只公开了一个仅有 1.17 亿参数的缩小版本,而完整版拥有 15 亿参数。
这个决定在 AI 社区引发了巨大争议。批评者称这不过是一次精心策划的公关噱头——"一个 15 亿参数的语言模型能有什么危险?"有人指出,恶意行为者完全可以从头训练类似的模型。支持者则认为,这是 AI 领域第一次严肃对待潜在的安全威胁。无论如何,这场争论标志着一个深刻的转折:OpenAI 的名字里有"Open",但它正在重新思考"开放"的含义。到 2019 年 11 月,完整模型最终发布,但 OpenAI 的哲学已经悄然改变。
GPT-3(2020.6):涌现能力
规模的飞跃
GPT-3 的规模令人瞠目结舌:1750 亿参数,训练成本估计约 460 万美元。如果用一块 Tesla V100 GPU 来训练 GPT-3,需要 355 年。
| 维度 | GPT-2 | GPT-3 |
|---|---|---|
| 参数量 | 15 亿 | 1750 亿 |
| 训练数据 | 40GB | 570GB(过滤后的 Common Crawl + 其他) |
| 训练成本 | - | 估计 ~$4.6M |
| 层数 | 48 | 96 |
| 上下文长度 | 1024 | 2048 |
GPT-3 发布后,开发者 API 等待名单排了长达 6 个月。
Few-shot Learning:少样本学习
GPT-2 的突破:Zero-shot(不需要示例)
GPT-3 的突破:Few-shot(只需要几个示例)
例子——情感分析:
输入:
"This movie is great!" → Positive
"Terrible experience." → Negative
"I loved the acting." →
GPT-3 输出:Positive
只需 2-3 个示例,模型就能学会新任务!涌现能力(Emergent Abilities)
这是 GPT-3 最令人震惊的发现:当模型大到一定程度时,它突然展现出小模型完全不具备的能力。
涌现能力:在小模型中不存在,但在大模型中突然出现的能力
模型规模
│
│ ×××× ← 突然出现新能力
│ ××
│ ××
│ ××
│ ××
│×× ← 小模型:能力较弱
└────────────
具体涌现的能力:
├── 算术推理(做数学题)
├── 逻辑推理
├── 代码生成
├── 翻译(零样本)
└── 问答涌现能力挑战了传统认知——我们无法从小模型的行为预测大模型会做什么。这意味着,规模本身就是一种质的飞跃,而不仅仅是量的积累。
Scaling Law:规模法则
Kaplan 等人的发现(2020)
OpenAI 的研究揭示了模型性能与三个因素的幂律关系:
Loss ∝ C^(-α)
其中 C 可以是:
- N:模型参数量
- D:训练数据量
- C_compute:计算量
核心发现:
1. 增大模型比增大数据更高效(相同计算预算下)
2. 三个因素中任何一个不足都会成为瓶颈
3. 性能提升是可预测的(幂律关系)Loss 与参数量的关系:
Loss
│\
│ \
│ \
│ \____
│ \____
│ \_______ ← 逐渐降低,但永远不到 0
└──────────────────────── 参数量
1B 10B 100B 1T
关键洞察:只要继续增大规模,性能就会继续提升
→ 这直接推动了后来更大模型的投资Scaling Law 的影响
Scaling Law 改变了 AI 研究的方向:
之前:「我们需要更好的算法」
之后:「我们需要更大的模型和更多的数据」
2020-2024 年的 AI 进展很大程度上就是 Scaling Law 的验证:
GPT-3 (175B) → GPT-4 (更大) → GPT-4o → ...对 Scaling Law 的争论
| 观点 | 论据 |
|---|---|
| 支持 | 每次增大规模都带来了显著的性能提升 |
| 质疑 | 高质量数据可能快用完了;计算成本不可持续 |
| 中间 | 规模仍然重要,但需要算法创新配合 |
本节小结
| 概念 | 要点 |
|---|---|
| GPT-2 | 15 亿参数,Zero-shot 学习,因安全考虑限制发布 |
| GPT-3 | 1750 亿参数,Few-shot 学习,展现涌现能力 |
| 涌现能力 | 大模型突然具备小模型没有的能力 |
| Scaling Law | 性能与规模呈幂律关系,规模增大性能可预测地提升 |
| 深远影响 | 确立了「越大越好」的路线,推动大规模投资 |
思考题
- 涌现能力是真正的「质变」还是只是「量变到了一定程度看起来像质变」?这对我们理解 AI 有什么影响?
- Scaling Law 意味着只要增大规模就能继续提升。这个趋势会永远持续吗?可能的限制因素有哪些?
- GPT-2 的发布争议开启了 AI 安全讨论。你认为 AI 模型应该被限制发布吗?利弊是什么?
延伸阅读
- Radford et al., Language Models are Unsupervised Multitask Learners, 2019 — GPT-2 论文
- Brown et al., Language Models are Few-Shot Learners, 2020 — GPT-3 论文
- Kaplan et al., Scaling Laws for Neural Language Models, 2020 — Scaling Law 论文