Skip to content

引言

2023 年秋天,OpenAI 内部有一个代号「草莓」的秘密项目。没人知道它是什么,但所有人都感觉到,一场风暴即将到来。而它的起点,源于一个看似荒唐的测试题——数一数 "strawberry" 这个单词里有几个字母 "r"。早期的 GPT 模型回答「两个」,但正确答案是三个。这个让无数 AI 研究者辗转反侧的小问题,最终催生了一个全新的模型范式:推理模型


System 1 vs System 2

Daniel Kahneman 的双系统理论

DK1934-2024
Daniel Kahneman
诺贝尔经济学奖得主,行为经济学奠基人
"我们对自己认为自己知道的东西太自信了。"

2002 年诺贝尔经济学奖得主 Kahneman 在其著作《思考,快与慢》中提出了人类思维的「双系统」理论:

System 1(快思考):
  直觉、快速、自动
  例:2+2=? → 立刻回答 4
  例:看到熟人 → 立刻认出

System 2(慢思考):
  分析、缓慢、需要努力
  例:17×24=? → 需要计算
  例:解一道复杂的逻辑题

传统大语言模型 ≈ System 1
  直接输出,不经过中间推理步骤
  → 简单问题快速正确,复杂问题容易出错

推理模型的突破

推理模型 ≈ System 2
  在输出前进行多步内部推理
  → 复杂问题的准确性大幅提升

传统模型:问题 → 直接回答
推理模型:问题 → 思考链 → 回答

思维链(Chain of Thought)

CoT 的提出(2022)

JW1999-
Jason Wei
Google 研究员,思维链提示的发现者
"简单的提示词改变,带来了惊人的性能提升。"

Google 的 Jason Wei 等人发现,只需在提示中加入「让我们一步一步想」,模型的表现就会大幅提升:

标准提示:
  Q: 餐厅有 23 个苹果。午餐用了 20 个,又买了 6 个。还有多少个?
  A: 9(错误!)

思维链提示:
  Q: 餐厅有 23 个苹果。午餐用了 20 个,又买了 6 个。还有多少个?
  A: 让我们一步步思考:
     开始有 23 个苹果
     午餐用了 20 个:23 - 20 = 3
     又买了 6 个:3 + 6 = 9
     答案是 9。(正确!)

CoT 的本质

思维链的作用:
  1. 将复杂问题分解为简单步骤
  2. 给模型更多的「计算步骤」(token)来思考
  3. 每一步的中间结果可以被后续步骤利用
  4. 人类可以检查推理过程

类比:
  直接回答 = 心算
  思维链 = 草稿纸上演算

OpenAI o1:从 Q* 到「草莓」

一个代号背后的故事

2023.11Q* 传闻爆发——OpenAI 内部出现了神秘的 Q* 项目,据称能解决数学问题
2023.11Sam Altman 被 OpenAI 董事会突然解雇,五天后复职,震动整个科技界
2024.初「草莓」(Strawberry)项目被路透社曝光,一个能自主做研究的 AI 系统
2024.9OpenAI 正式发布 o1 模型——「草莓」终于揭开面纱

o1 的代号 "Strawberry" 并非随意选取。在 AI 圈里,"strawberry" 是一个经典的基准测试——让 AI 数出单词中有几个字母 "r"。早期模型几乎全部失败,答出「两个」。这个看似简单的问题暴露了 LLM 在逐字理解上的根本缺陷。而 o1 的目标,正是通过深度推理来攻克这类问题。

核心机制

o1 的训练和使用流程:

训练阶段:
  1. 预训练(标准语言模型训练)
  2. 强化学习训练推理能力
     - 学习生成长思维链
     - 学会自我纠错、尝试多种策略
     - 奖励基于最终答案的正确性

使用阶段:
  用户提问 → o1 内部生成思维链(不可见)→ 输出最终答案

性能提升

在数学和编程竞赛中的表现:

  AIME 数学竞赛(美国数学邀请赛):
    GPT-4o:约 13%
    o1:约 83%

  编程竞赛(Codeforces 排名):
    GPT-4o:约 900 分
    o1:约 1800 分

  博士级科学问题(GPQA):
    GPT-4o:约 53%
    o1:约 78%

推理时的计算扩展(Test-time Compute)

传统模型:计算量在训练时确定
推理模型:推理时可以「多想想」

简单问题:少想几步 → 快速回答
复杂问题:多想几步 → 深度推理

这打破了「推理成本固定」的限制

DeepSeek R1:震惊世界的纯 RL 发现

一场引发万亿美元震荡的发布

2025 年 1 月 20 日,中国 AI 公司 DeepSeek 发布了 R1 推理模型。它的性能接近 o1,但训练成本只有西方实验室的一个零头。消息传出,美国科技股遭遇史诗级抛售——一天之内,英伟达市值蒸发了约 6000 亿美元,创造了人类历史上单一公司最大单日市值损失纪录

2025.1.20DeepSeek 发布 R1 推理模型,性能接近 o1,完全开源
2025.1.27美国科技股暴跌,英伟达单日蒸发约 $600B 市值
2025.1特朗普称 DeepSeek 是美国的「警钟」
2025.1全球重新审视 AI 训练成本——不到 $600 万就能训练顶级推理模型

DeepSeek R1 最令人震惊的不是性能,而是它的训练方法:不使用任何人类编写的思维链数据,纯粹通过强化学习(RL),推理能力就自然涌现了。这意味着「思考」不是被教会的方法,而是模型在追求正确答案时自己发现的策略。

R1 的训练方法

DeepSeek-R1-Zero(纯 RL 路线):
  基础模型 → 直接用强化学习训练 → 推理能力自然涌现

DeepSeek-R1(改进版):
  1. 少量高质量冷启动数据微调
  2. 强化学习训练(与 Zero 类似)
  3. 拒绝采样 + 监督微调
  4. 全场景强化学习

关键发现:
  即使不提供任何思维链示例,纯 RL 训练也能让模型
  自动发展出「先思考再回答」的行为

推理模型的工作方式

一个推理模型的内部思维链示例(简化):

问题:一个钟表 3 点 15 分时,时针和分针的夹角是多少?

内部思考:
  "让我分析这个问题..."
  "3 点整时,时针在 3 的位置,即 90 度"
  "分针走 15 分钟,走了 360/4 = 90 度,到达 12 的位置正下方"
  "等等,分针在 3 点 15 时指向 3,即 90 度"
  "但时针也在移动!15 分钟内时针移动了 30×15/60 = 7.5 度"
  "所以时针在 90 + 7.5 = 97.5 度"
  "分针在 90 度"
  "夹角 = 97.5 - 90 = 7.5 度"
  "答案是 7.5 度"

输出:7.5 度

推理模型的局限

局限说明
速度慢复杂问题需要大量思考步骤
成本高推理时计算量大
不确定性同一问题可能给出不同答案
不擅长创意任务推理优化对创意写作帮助有限
过度思考简单问题也可能「想太多」

本节小结

概念要点
System 1 vs 2快速直觉 vs 深度推理
思维链 CoT分步推理,大幅提升复杂问题准确率
o1OpenAI 推理模型,代号「草莓」,数学/编程能力大幅提升
DeepSeek R1开源推理模型,纯 RL 涌现推理能力,引发全球市场震荡
Test-time Compute推理时可以动态增加计算量

思考题

  1. 推理模型的「思考」和人类的思考是一回事吗?有什么本质区别?
  2. 为什么纯强化学习就能让模型涌现出推理能力?这意味着什么?
  3. DeepSeek R1 用极低成本训练出顶级推理模型,这会改变 AI 行业的竞争格局吗?