推理模型 | AI 知识课程

引言

2023 年秋天，OpenAI 内部有一个代号「草莓」的秘密项目。没人知道它是什么，但所有人都感觉到，一场风暴即将到来。而它的起点，源于一个看似荒唐的测试题——数一数 "strawberry" 这个单词里有几个字母 "r"。早期的 GPT 模型回答「两个」，但正确答案是三个。这个让无数 AI 研究者辗转反侧的小问题，最终催生了一个全新的模型范式：推理模型。

System 1 vs System 2

Daniel Kahneman 的双系统理论

DK1934-2024

Daniel Kahneman

诺贝尔经济学奖得主，行为经济学奠基人

"我们对自己认为自己知道的东西太自信了。"

2002 年诺贝尔经济学奖得主 Kahneman 在其著作《思考，快与慢》中提出了人类思维的「双系统」理论：

System 1（快思考）：
  直觉、快速、自动
  例：2+2=? → 立刻回答 4
  例：看到熟人 → 立刻认出

System 2（慢思考）：
  分析、缓慢、需要努力
  例：17×24=? → 需要计算
  例：解一道复杂的逻辑题

传统大语言模型 ≈ System 1
  直接输出，不经过中间推理步骤
  → 简单问题快速正确，复杂问题容易出错

推理模型的突破

推理模型 ≈ System 2
  在输出前进行多步内部推理
  → 复杂问题的准确性大幅提升

传统模型：问题 → 直接回答
推理模型：问题 → 思考链 → 回答

思维链（Chain of Thought）

CoT 的提出（2022）

JW1999-

Jason Wei

Google 研究员，思维链提示的发现者

"简单的提示词改变，带来了惊人的性能提升。"

Google 的 Jason Wei 等人发现，只需在提示中加入「让我们一步一步想」，模型的表现就会大幅提升：

标准提示：
  Q: 餐厅有 23 个苹果。午餐用了 20 个，又买了 6 个。还有多少个？
  A: 9（错误！）

思维链提示：
  Q: 餐厅有 23 个苹果。午餐用了 20 个，又买了 6 个。还有多少个？
  A: 让我们一步步思考：
     开始有 23 个苹果
     午餐用了 20 个：23 - 20 = 3
     又买了 6 个：3 + 6 = 9
     答案是 9。（正确！）

CoT 的本质

思维链的作用：
  1. 将复杂问题分解为简单步骤
  2. 给模型更多的「计算步骤」（token）来思考
  3. 每一步的中间结果可以被后续步骤利用
  4. 人类可以检查推理过程

类比：
  直接回答 = 心算
  思维链 = 草稿纸上演算

OpenAI o1：从 Q* 到「草莓」

一个代号背后的故事

2023.11Q* 传闻爆发——OpenAI 内部出现了神秘的 Q* 项目，据称能解决数学问题

2023.11Sam Altman 被 OpenAI 董事会突然解雇，五天后复职，震动整个科技界

2024.初「草莓」（Strawberry）项目被路透社曝光，一个能自主做研究的 AI 系统

2024.9OpenAI 正式发布 o1 模型——「草莓」终于揭开面纱

o1 的代号 "Strawberry" 并非随意选取。在 AI 圈里，"strawberry" 是一个经典的基准测试——让 AI 数出单词中有几个字母 "r"。早期模型几乎全部失败，答出「两个」。这个看似简单的问题暴露了 LLM 在逐字理解上的根本缺陷。而 o1 的目标，正是通过深度推理来攻克这类问题。

核心机制

o1 的训练和使用流程：

训练阶段：
  1. 预训练（标准语言模型训练）
  2. 强化学习训练推理能力
     - 学习生成长思维链
     - 学会自我纠错、尝试多种策略
     - 奖励基于最终答案的正确性

使用阶段：
  用户提问 → o1 内部生成思维链（不可见）→ 输出最终答案

性能提升

在数学和编程竞赛中的表现：

  AIME 数学竞赛（美国数学邀请赛）：
    GPT-4o：约 13%
    o1：约 83%

  编程竞赛（Codeforces 排名）：
    GPT-4o：约 900 分
    o1：约 1800 分

  博士级科学问题（GPQA）：
    GPT-4o：约 53%
    o1：约 78%

推理时的计算扩展（Test-time Compute）

传统模型：计算量在训练时确定
推理模型：推理时可以「多想想」

简单问题：少想几步 → 快速回答
复杂问题：多想几步 → 深度推理

这打破了「推理成本固定」的限制

DeepSeek R1：震惊世界的纯 RL 发现

一场引发万亿美元震荡的发布

2025 年 1 月 20 日，中国 AI 公司 DeepSeek 发布了 R1 推理模型。它的性能接近 o1，但训练成本只有西方实验室的一个零头。消息传出，美国科技股遭遇史诗级抛售——一天之内，英伟达市值蒸发了约 6000 亿美元，创造了人类历史上单一公司最大单日市值损失纪录。

2025.1.20DeepSeek 发布 R1 推理模型，性能接近 o1，完全开源

2025.1.27美国科技股暴跌，英伟达单日蒸发约 $600B 市值

2025.1特朗普称 DeepSeek 是美国的「警钟」

2025.1全球重新审视 AI 训练成本——不到 $600 万就能训练顶级推理模型

DeepSeek R1 最令人震惊的不是性能，而是它的训练方法：不使用任何人类编写的思维链数据，纯粹通过强化学习（RL），推理能力就自然涌现了。这意味着「思考」不是被教会的方法，而是模型在追求正确答案时自己发现的策略。

R1 的训练方法

DeepSeek-R1-Zero（纯 RL 路线）：
  基础模型 → 直接用强化学习训练 → 推理能力自然涌现

DeepSeek-R1（改进版）：
  1. 少量高质量冷启动数据微调
  2. 强化学习训练（与 Zero 类似）
  3. 拒绝采样 + 监督微调
  4. 全场景强化学习

关键发现：
  即使不提供任何思维链示例，纯 RL 训练也能让模型
  自动发展出「先思考再回答」的行为

推理模型的工作方式

一个推理模型的内部思维链示例（简化）：

问题：一个钟表 3 点 15 分时，时针和分针的夹角是多少？

内部思考：
  "让我分析这个问题..."
  "3 点整时，时针在 3 的位置，即 90 度"
  "分针走 15 分钟，走了 360/4 = 90 度，到达 12 的位置正下方"
  "等等，分针在 3 点 15 时指向 3，即 90 度"
  "但时针也在移动！15 分钟内时针移动了 30×15/60 = 7.5 度"
  "所以时针在 90 + 7.5 = 97.5 度"
  "分针在 90 度"
  "夹角 = 97.5 - 90 = 7.5 度"
  "答案是 7.5 度"

输出：7.5 度

推理模型的局限

局限	说明
速度慢	复杂问题需要大量思考步骤
成本高	推理时计算量大
不确定性	同一问题可能给出不同答案
不擅长创意任务	推理优化对创意写作帮助有限
过度思考	简单问题也可能「想太多」

本节小结

概念	要点
System 1 vs 2	快速直觉 vs 深度推理
思维链 CoT	分步推理，大幅提升复杂问题准确率
o1	OpenAI 推理模型，代号「草莓」，数学/编程能力大幅提升
DeepSeek R1	开源推理模型，纯 RL 涌现推理能力，引发全球市场震荡
Test-time Compute	推理时可以动态增加计算量

思考题

推理模型的「思考」和人类的思考是一回事吗？有什么本质区别？
为什么纯强化学习就能让模型涌现出推理能力？这意味着什么？
DeepSeek R1 用极低成本训练出顶级推理模型，这会改变 AI 行业的竞争格局吗？

引言 ​

System 1 vs System 2 ​

Daniel Kahneman 的双系统理论 ​

推理模型的突破 ​

思维链（Chain of Thought） ​

CoT 的提出（2022） ​

CoT 的本质 ​

OpenAI o1：从 Q* 到「草莓」 ​

一个代号背后的故事 ​

核心机制 ​

性能提升 ​

推理时的计算扩展（Test-time Compute） ​

DeepSeek R1：震惊世界的纯 RL 发现 ​

一场引发万亿美元震荡的发布 ​

R1 的训练方法 ​

推理模型的工作方式 ​

推理模型的局限 ​

本节小结 ​

思考题 ​

引言