引言
2023 年秋天,OpenAI 内部有一个代号「草莓」的秘密项目。没人知道它是什么,但所有人都感觉到,一场风暴即将到来。而它的起点,源于一个看似荒唐的测试题——数一数 "strawberry" 这个单词里有几个字母 "r"。早期的 GPT 模型回答「两个」,但正确答案是三个。这个让无数 AI 研究者辗转反侧的小问题,最终催生了一个全新的模型范式:推理模型。
System 1 vs System 2
Daniel Kahneman 的双系统理论
DK1934-2024
Daniel Kahneman
诺贝尔经济学奖得主,行为经济学奠基人
"我们对自己认为自己知道的东西太自信了。"
2002 年诺贝尔经济学奖得主 Kahneman 在其著作《思考,快与慢》中提出了人类思维的「双系统」理论:
System 1(快思考):
直觉、快速、自动
例:2+2=? → 立刻回答 4
例:看到熟人 → 立刻认出
System 2(慢思考):
分析、缓慢、需要努力
例:17×24=? → 需要计算
例:解一道复杂的逻辑题
传统大语言模型 ≈ System 1
直接输出,不经过中间推理步骤
→ 简单问题快速正确,复杂问题容易出错推理模型的突破
推理模型 ≈ System 2
在输出前进行多步内部推理
→ 复杂问题的准确性大幅提升
传统模型:问题 → 直接回答
推理模型:问题 → 思考链 → 回答思维链(Chain of Thought)
CoT 的提出(2022)
JW1999-
Jason Wei
Google 研究员,思维链提示的发现者
"简单的提示词改变,带来了惊人的性能提升。"
Google 的 Jason Wei 等人发现,只需在提示中加入「让我们一步一步想」,模型的表现就会大幅提升:
标准提示:
Q: 餐厅有 23 个苹果。午餐用了 20 个,又买了 6 个。还有多少个?
A: 9(错误!)
思维链提示:
Q: 餐厅有 23 个苹果。午餐用了 20 个,又买了 6 个。还有多少个?
A: 让我们一步步思考:
开始有 23 个苹果
午餐用了 20 个:23 - 20 = 3
又买了 6 个:3 + 6 = 9
答案是 9。(正确!)CoT 的本质
思维链的作用:
1. 将复杂问题分解为简单步骤
2. 给模型更多的「计算步骤」(token)来思考
3. 每一步的中间结果可以被后续步骤利用
4. 人类可以检查推理过程
类比:
直接回答 = 心算
思维链 = 草稿纸上演算OpenAI o1:从 Q* 到「草莓」
一个代号背后的故事
2023.11Q* 传闻爆发——OpenAI 内部出现了神秘的 Q* 项目,据称能解决数学问题
2023.11Sam Altman 被 OpenAI 董事会突然解雇,五天后复职,震动整个科技界
2024.初「草莓」(Strawberry)项目被路透社曝光,一个能自主做研究的 AI 系统
2024.9OpenAI 正式发布 o1 模型——「草莓」终于揭开面纱
o1 的代号 "Strawberry" 并非随意选取。在 AI 圈里,"strawberry" 是一个经典的基准测试——让 AI 数出单词中有几个字母 "r"。早期模型几乎全部失败,答出「两个」。这个看似简单的问题暴露了 LLM 在逐字理解上的根本缺陷。而 o1 的目标,正是通过深度推理来攻克这类问题。
核心机制
o1 的训练和使用流程:
训练阶段:
1. 预训练(标准语言模型训练)
2. 强化学习训练推理能力
- 学习生成长思维链
- 学会自我纠错、尝试多种策略
- 奖励基于最终答案的正确性
使用阶段:
用户提问 → o1 内部生成思维链(不可见)→ 输出最终答案性能提升
在数学和编程竞赛中的表现:
AIME 数学竞赛(美国数学邀请赛):
GPT-4o:约 13%
o1:约 83%
编程竞赛(Codeforces 排名):
GPT-4o:约 900 分
o1:约 1800 分
博士级科学问题(GPQA):
GPT-4o:约 53%
o1:约 78%推理时的计算扩展(Test-time Compute)
传统模型:计算量在训练时确定
推理模型:推理时可以「多想想」
简单问题:少想几步 → 快速回答
复杂问题:多想几步 → 深度推理
这打破了「推理成本固定」的限制DeepSeek R1:震惊世界的纯 RL 发现
一场引发万亿美元震荡的发布
2025 年 1 月 20 日,中国 AI 公司 DeepSeek 发布了 R1 推理模型。它的性能接近 o1,但训练成本只有西方实验室的一个零头。消息传出,美国科技股遭遇史诗级抛售——一天之内,英伟达市值蒸发了约 6000 亿美元,创造了人类历史上单一公司最大单日市值损失纪录。
2025.1.20DeepSeek 发布 R1 推理模型,性能接近 o1,完全开源
2025.1.27美国科技股暴跌,英伟达单日蒸发约 $600B 市值
2025.1特朗普称 DeepSeek 是美国的「警钟」
2025.1全球重新审视 AI 训练成本——不到 $600 万就能训练顶级推理模型
DeepSeek R1 最令人震惊的不是性能,而是它的训练方法:不使用任何人类编写的思维链数据,纯粹通过强化学习(RL),推理能力就自然涌现了。这意味着「思考」不是被教会的方法,而是模型在追求正确答案时自己发现的策略。
R1 的训练方法
DeepSeek-R1-Zero(纯 RL 路线):
基础模型 → 直接用强化学习训练 → 推理能力自然涌现
DeepSeek-R1(改进版):
1. 少量高质量冷启动数据微调
2. 强化学习训练(与 Zero 类似)
3. 拒绝采样 + 监督微调
4. 全场景强化学习
关键发现:
即使不提供任何思维链示例,纯 RL 训练也能让模型
自动发展出「先思考再回答」的行为推理模型的工作方式
一个推理模型的内部思维链示例(简化):
问题:一个钟表 3 点 15 分时,时针和分针的夹角是多少?
内部思考:
"让我分析这个问题..."
"3 点整时,时针在 3 的位置,即 90 度"
"分针走 15 分钟,走了 360/4 = 90 度,到达 12 的位置正下方"
"等等,分针在 3 点 15 时指向 3,即 90 度"
"但时针也在移动!15 分钟内时针移动了 30×15/60 = 7.5 度"
"所以时针在 90 + 7.5 = 97.5 度"
"分针在 90 度"
"夹角 = 97.5 - 90 = 7.5 度"
"答案是 7.5 度"
输出:7.5 度推理模型的局限
| 局限 | 说明 |
|---|---|
| 速度慢 | 复杂问题需要大量思考步骤 |
| 成本高 | 推理时计算量大 |
| 不确定性 | 同一问题可能给出不同答案 |
| 不擅长创意任务 | 推理优化对创意写作帮助有限 |
| 过度思考 | 简单问题也可能「想太多」 |
本节小结
| 概念 | 要点 |
|---|---|
| System 1 vs 2 | 快速直觉 vs 深度推理 |
| 思维链 CoT | 分步推理,大幅提升复杂问题准确率 |
| o1 | OpenAI 推理模型,代号「草莓」,数学/编程能力大幅提升 |
| DeepSeek R1 | 开源推理模型,纯 RL 涌现推理能力,引发全球市场震荡 |
| Test-time Compute | 推理时可以动态增加计算量 |
思考题
- 推理模型的「思考」和人类的思考是一回事吗?有什么本质区别?
- 为什么纯强化学习就能让模型涌现出推理能力?这意味着什么?
- DeepSeek R1 用极低成本训练出顶级推理模型,这会改变 AI 行业的竞争格局吗?