GPT 系列与规模化 | AI 知识课程

引言

GPT-1 和 BERT 证明了预训练的有效性。接下来的问题是：如果模型更大、数据更多，会发生什么？ OpenAI 给出了一个大胆的回答——一直放大，直到奇迹出现。从 GPT-1 到 GPT-3，参数量增加了 1000 倍。这个过程伴随着一场关于 AI 安全的激烈争论、一次被批评为「公关噱头」的模型封锁，以及一个令人震惊的发现：规模本身就是一种魔力。

AR-

Alec Radford

OpenAI 研究员，GPT-1/2 核心作者，Scaling Law 的早期实践者

"Language models are unsupervised multitask learners."

GPT-2（2019.2）：「太危险而不能发布」

核心变化

维度	GPT-1	GPT-2
参数量	1.17 亿	15 亿
训练数据	5GB（BookCorpus）	40GB（WebText，Reddit 高质量链接）
层数	12	48
注意力头	12	25
主要创新	预训练-微调	Zero-shot 学习

Zero-shot：不做微调也能做任务

GPT-1 的范式：预训练 → 微调（需要标注数据）
GPT-2 的范式：预训练 → 直接用（不需要标注数据）

例子：
  输入："将以下英文翻译为法文：The cat is on the mat."
  GPT-2 直接续写出翻译结果。

原理：模型在大量文本上训练后，已经「见过」了各种任务的例子，
     只需要用自然语言描述任务，模型就能执行。

「太危险了」：一场关于 AI 安全的风暴

2019.2OpenAI 发布 GPT-2 论文，但拒绝公开完整模型，仅释放 117M 参数的缩小版

2019.2OpenAI 声明：「由于对恶意应用的担忧，我们不发布训练好的模型」

2019 春社区强烈反弹：批评者称其为「PR 噱头」，阻碍了学术研究

2019.8OpenAI 分阶段释放 345M、774M、1.5B 参数版本

2019.11完整 GPT-2 模型最终发布

持续影响这一事件标志着 OpenAI 从「开放」转向「谨慎」的哲学转折

2019 年 2 月，OpenAI 做出了一个史无前例的决定：他们拒绝发布完整的 GPT-2 模型。在论文发布时，OpenAI 发表声明称："由于对恶意应用的担忧，我们不发布训练好的模型。"他们只公开了一个仅有 1.17 亿参数的缩小版本，而完整版拥有 15 亿参数。

这个决定在 AI 社区引发了巨大争议。批评者称这不过是一次精心策划的公关噱头——"一个 15 亿参数的语言模型能有什么危险？"有人指出，恶意行为者完全可以从头训练类似的模型。支持者则认为，这是 AI 领域第一次严肃对待潜在的安全威胁。无论如何，这场争论标志着一个深刻的转折：OpenAI 的名字里有"Open"，但它正在重新思考"开放"的含义。到 2019 年 11 月，完整模型最终发布，但 OpenAI 的哲学已经悄然改变。

GPT-3（2020.6）：涌现能力

规模的飞跃

GPT-3 的规模令人瞠目结舌：1750 亿参数，训练成本估计约 460 万美元。如果用一块 Tesla V100 GPU 来训练 GPT-3，需要 355 年。

维度	GPT-2	GPT-3
参数量	15 亿	1750 亿
训练数据	40GB	570GB（过滤后的 Common Crawl + 其他）
训练成本	-	估计 ~$4.6M
层数	48	96
上下文长度	1024	2048

GPT-3 发布后，开发者 API 等待名单排了长达 6 个月。

Few-shot Learning：少样本学习

GPT-2 的突破：Zero-shot（不需要示例）
GPT-3 的突破：Few-shot（只需要几个示例）

例子——情感分析：

输入：
  "This movie is great!" → Positive
  "Terrible experience." → Negative
  "I loved the acting." →

GPT-3 输出：Positive

只需 2-3 个示例，模型就能学会新任务！

涌现能力（Emergent Abilities）

这是 GPT-3 最令人震惊的发现：当模型大到一定程度时，它突然展现出小模型完全不具备的能力。

涌现能力：在小模型中不存在，但在大模型中突然出现的能力

  模型规模
  │
  │          ×××× ← 突然出现新能力
  │        ××
  │      ××
  │    ××
  │  ××
  │××       ← 小模型：能力较弱
  └────────────

具体涌现的能力：
  ├── 算术推理（做数学题）
  ├── 逻辑推理
  ├── 代码生成
  ├── 翻译（零样本）
  └── 问答

涌现能力挑战了传统认知——我们无法从小模型的行为预测大模型会做什么。这意味着，规模本身就是一种质的飞跃，而不仅仅是量的积累。

Scaling Law：规模法则

Kaplan 等人的发现（2020）

OpenAI 的研究揭示了模型性能与三个因素的幂律关系：

Loss ∝ C^(-α)

其中 C 可以是：
  - N：模型参数量
  - D：训练数据量
  - C_compute：计算量

核心发现：
  1. 增大模型比增大数据更高效（相同计算预算下）
  2. 三个因素中任何一个不足都会成为瓶颈
  3. 性能提升是可预测的（幂律关系）

Loss 与参数量的关系：

Loss
  │\
  │ \
  │  \
  │   \____
  │        \____
  │             \_______    ← 逐渐降低，但永远不到 0
  └──────────────────────── 参数量
        1B   10B  100B  1T

关键洞察：只要继续增大规模，性能就会继续提升
→ 这直接推动了后来更大模型的投资

Scaling Law 的影响

Scaling Law 改变了 AI 研究的方向：

之前：「我们需要更好的算法」
之后：「我们需要更大的模型和更多的数据」

2020-2024 年的 AI 进展很大程度上就是 Scaling Law 的验证：
  GPT-3 (175B) → GPT-4 (更大) → GPT-4o → ...

对 Scaling Law 的争论

观点	论据
支持	每次增大规模都带来了显著的性能提升
质疑	高质量数据可能快用完了；计算成本不可持续
中间	规模仍然重要，但需要算法创新配合

本节小结

概念	要点
GPT-2	15 亿参数，Zero-shot 学习，因安全考虑限制发布
GPT-3	1750 亿参数，Few-shot 学习，展现涌现能力
涌现能力	大模型突然具备小模型没有的能力
Scaling Law	性能与规模呈幂律关系，规模增大性能可预测地提升
深远影响	确立了「越大越好」的路线，推动大规模投资

思考题

涌现能力是真正的「质变」还是只是「量变到了一定程度看起来像质变」？这对我们理解 AI 有什么影响？
Scaling Law 意味着只要增大规模就能继续提升。这个趋势会永远持续吗？可能的限制因素有哪些？
GPT-2 的发布争议开启了 AI 安全讨论。你认为 AI 模型应该被限制发布吗？利弊是什么？

引言 ​

GPT-2（2019.2）：「太危险而不能发布」 ​

核心变化 ​

Zero-shot：不做微调也能做任务 ​

「太危险了」：一场关于 AI 安全的风暴 ​

GPT-3（2020.6）：涌现能力 ​

规模的飞跃 ​

Few-shot Learning：少样本学习 ​

涌现能力（Emergent Abilities） ​

Scaling Law：规模法则 ​

Kaplan 等人的发现（2020） ​

Scaling Law 的影响 ​

对 Scaling Law 的争论 ​

本节小结 ​

思考题 ​

延伸阅读 ​

引言