Skip to content

引言

GPT-1 和 BERT 证明了预训练的有效性。接下来的问题是:如果模型更大、数据更多,会发生什么? OpenAI 给出了一个大胆的回答——一直放大,直到奇迹出现。从 GPT-1 到 GPT-3,参数量增加了 1000 倍。这个过程伴随着一场关于 AI 安全的激烈争论、一次被批评为「公关噱头」的模型封锁,以及一个令人震惊的发现:规模本身就是一种魔力

AR-
Alec Radford
OpenAI 研究员,GPT-1/2 核心作者,Scaling Law 的早期实践者
"Language models are unsupervised multitask learners."

GPT-2(2019.2):「太危险而不能发布」

核心变化

维度GPT-1GPT-2
参数量1.17 亿15 亿
训练数据5GB(BookCorpus)40GB(WebText,Reddit 高质量链接)
层数1248
注意力头1225
主要创新预训练-微调Zero-shot 学习

Zero-shot:不做微调也能做任务

GPT-1 的范式:预训练 → 微调(需要标注数据)
GPT-2 的范式:预训练 → 直接用(不需要标注数据)

例子:
  输入:"将以下英文翻译为法文:The cat is on the mat."
  GPT-2 直接续写出翻译结果。

原理:模型在大量文本上训练后,已经「见过」了各种任务的例子,
     只需要用自然语言描述任务,模型就能执行。

「太危险了」:一场关于 AI 安全的风暴

2019.2OpenAI 发布 GPT-2 论文,但拒绝公开完整模型,仅释放 117M 参数的缩小版
2019.2OpenAI 声明:「由于对恶意应用的担忧,我们不发布训练好的模型」
2019 春社区强烈反弹:批评者称其为「PR 噱头」,阻碍了学术研究
2019.8OpenAI 分阶段释放 345M、774M、1.5B 参数版本
2019.11完整 GPT-2 模型最终发布
持续影响这一事件标志着 OpenAI 从「开放」转向「谨慎」的哲学转折

2019 年 2 月,OpenAI 做出了一个史无前例的决定:他们拒绝发布完整的 GPT-2 模型。在论文发布时,OpenAI 发表声明称:"由于对恶意应用的担忧,我们不发布训练好的模型。"他们只公开了一个仅有 1.17 亿参数的缩小版本,而完整版拥有 15 亿参数。

这个决定在 AI 社区引发了巨大争议。批评者称这不过是一次精心策划的公关噱头——"一个 15 亿参数的语言模型能有什么危险?"有人指出,恶意行为者完全可以从头训练类似的模型。支持者则认为,这是 AI 领域第一次严肃对待潜在的安全威胁。无论如何,这场争论标志着一个深刻的转折:OpenAI 的名字里有"Open",但它正在重新思考"开放"的含义。到 2019 年 11 月,完整模型最终发布,但 OpenAI 的哲学已经悄然改变。

GPT-3(2020.6):涌现能力

规模的飞跃

GPT-3 的规模令人瞠目结舌:1750 亿参数,训练成本估计约 460 万美元。如果用一块 Tesla V100 GPU 来训练 GPT-3,需要 355 年

维度GPT-2GPT-3
参数量15 亿1750 亿
训练数据40GB570GB(过滤后的 Common Crawl + 其他)
训练成本-估计 ~$4.6M
层数4896
上下文长度10242048

GPT-3 发布后,开发者 API 等待名单排了长达 6 个月

Few-shot Learning:少样本学习

GPT-2 的突破:Zero-shot(不需要示例)
GPT-3 的突破:Few-shot(只需要几个示例)

例子——情感分析:

输入:
  "This movie is great!" → Positive
  "Terrible experience." → Negative
  "I loved the acting." →

GPT-3 输出:Positive

只需 2-3 个示例,模型就能学会新任务!

涌现能力(Emergent Abilities)

这是 GPT-3 最令人震惊的发现:当模型大到一定程度时,它突然展现出小模型完全不具备的能力。

涌现能力:在小模型中不存在,但在大模型中突然出现的能力

  模型规模

  │          ×××× ← 突然出现新能力
  │        ××
  │      ××
  │    ××
  │  ××
  │××       ← 小模型:能力较弱
  └────────────

具体涌现的能力:
  ├── 算术推理(做数学题)
  ├── 逻辑推理
  ├── 代码生成
  ├── 翻译(零样本)
  └── 问答

涌现能力挑战了传统认知——我们无法从小模型的行为预测大模型会做什么。这意味着,规模本身就是一种质的飞跃,而不仅仅是量的积累

Scaling Law:规模法则

Kaplan 等人的发现(2020)

OpenAI 的研究揭示了模型性能与三个因素的幂律关系:

Loss ∝ C^(-α)

其中 C 可以是:
  - N:模型参数量
  - D:训练数据量
  - C_compute:计算量

核心发现:
  1. 增大模型比增大数据更高效(相同计算预算下)
  2. 三个因素中任何一个不足都会成为瓶颈
  3. 性能提升是可预测的(幂律关系)
Loss 与参数量的关系:

Loss
  │\
  │ \
  │  \
  │   \____
  │        \____
  │             \_______    ← 逐渐降低,但永远不到 0
  └──────────────────────── 参数量
        1B   10B  100B  1T

关键洞察:只要继续增大规模,性能就会继续提升
→ 这直接推动了后来更大模型的投资

Scaling Law 的影响

Scaling Law 改变了 AI 研究的方向:

之前:「我们需要更好的算法」
之后:「我们需要更大的模型和更多的数据」

2020-2024 年的 AI 进展很大程度上就是 Scaling Law 的验证:
  GPT-3 (175B) → GPT-4 (更大) → GPT-4o → ...

对 Scaling Law 的争论

观点论据
支持每次增大规模都带来了显著的性能提升
质疑高质量数据可能快用完了;计算成本不可持续
中间规模仍然重要,但需要算法创新配合

本节小结

概念要点
GPT-215 亿参数,Zero-shot 学习,因安全考虑限制发布
GPT-31750 亿参数,Few-shot 学习,展现涌现能力
涌现能力大模型突然具备小模型没有的能力
Scaling Law性能与规模呈幂律关系,规模增大性能可预测地提升
深远影响确立了「越大越好」的路线,推动大规模投资

思考题

  1. 涌现能力是真正的「质变」还是只是「量变到了一定程度看起来像质变」?这对我们理解 AI 有什么影响?
  2. Scaling Law 意味着只要增大规模就能继续提升。这个趋势会永远持续吗?可能的限制因素有哪些?
  3. GPT-2 的发布争议开启了 AI 安全讨论。你认为 AI 模型应该被限制发布吗?利弊是什么?

延伸阅读

  • Radford et al., Language Models are Unsupervised Multitask Learners, 2019 — GPT-2 论文
  • Brown et al., Language Models are Few-Shot Learners, 2020 — GPT-3 论文
  • Kaplan et al., Scaling Laws for Neural Language Models, 2020 — Scaling Law 论文