Skip to content

引言

2022 年 11 月 30 日,一个看似平平无奇的星期三。OpenAI 在其博客上低调上线了一款名为 ChatGPT 的对话产品。没有人——甚至包括 OpenAI 内部的许多人——预见到接下来发生的事情。五天内,用户数突破 100 万;两个月后,1 亿人涌入这个聊天框。Google 内部拉响了"红色警报"(Code Red),微软 CEO Satya Nadella 在高管会议上说出那句著名的话:"我要让全世界知道,是我们让 Google 跳起了舞。" 一个全新的 AI 时代,就这样猝不及防地拉开了序幕。

2020.6GPT-3 发布,展示强大语言能力但难以控制
2022.1InstructGPT 论文发布,RLHF 技术首次验证
2022.3InstructGPT 线上部署,为 ChatGPT 奠定基础
2022.11.30ChatGPT 上线,五天突破 100 万用户
2023.1月活突破 1 亿,成为史上增长最快消费级应用
2023.2Google 内部发布 Code Red,紧急推进 Bard 项目
2023.3GPT-4 发布,推理能力大幅提升
2023.11OpenAI 首届开发者大会,发布 GPTs 与 GPT Store
2024.5GPT-4o 发布,实现实时多模态交互

从 InstructGPT 到 ChatGPT

GPT-3 的局限

GPT-3 (2020) 的能力已经很强,但有明显问题:

用户:告诉我关于量子力学的知识
GPT-3:可能回答正确
       可能续写出一段无关的小说
       可能输出乱码

问题:
  ├── 不遵循指令(它只是续写文本,不理解「指令」概念)
  ├── 可能生成有害内容
  ├── 事实错误(幻觉)
  └── 输出格式不可控

2020 年的 GPT-3 令人惊叹,但它有一个根本性缺陷——它是一个续写机器,不是一个对话伙伴。用户给它一段文字,它会按照统计规律往下续写。如果你问它一个问题,它可能给你答案,也可能续写成一段新闻报道,甚至胡言乱语。OpenAI 研究团队意识到,光靠增加模型规模无法解决这个问题,必须在训练方法上做出根本性改变。

InstructGPT(2022.3)

OpenAI 在 GPT-3 之后的研究重点:如何让模型更「听话」?

InstructGPT 的训练三步曲:

步骤 1:监督微调(SFT)
  人工编写高质量的「指令-回复」对
  用这些数据微调 GPT-3
  → 模型学会按指令格式回答

步骤 2:奖励模型(RM)
  让模型生成多个回复
  人工对回复排序
  训练一个「奖励模型」学习人类偏好

步骤 3:强化学习(PPO)
  用奖励模型的反馈通过 PPO 算法继续优化模型
  → 模型学会生成人类更喜欢的回复

InstructGPT 的参数量其实远小于 GPT-3(只有 1.3B vs 175B),但在人类评估中,它的输出反而更受欢迎。这个结果震动了研究界:与其一味追求更大的模型,不如让模型学会什么才是好回答。这个发现,成为 ChatGPT 诞生的关键基石。

ChatGPT 的创新

ChatGPT ≈ InstructGPT + 对话界面 + 大规模工程优化

关键改进:
  ├── 对话格式:多轮对话能力
  ├── 上下文理解:记住之前的对话内容
  ├── 安全对齐:拒绝不适当的请求
  ├── 用户友好:简洁的聊天界面
  └── 免费开放:降低使用门槛

ChatGPT 为什么能火?

五天一百万用户:一场事先未计划的"事故"

据 OpenAI 联合创始人 Greg Brockman 事后回忆,团队最初的预期相当保守——他们只是想收集一些用户反馈来改进模型。没有人预见到那场"爆爆米花"式的增长。ChatGPT 上线后,社交媒体上涌出了无数截图:有人让 ChatGPT 解释相对论,有人让它写代码,有人让它模仿莎士比亚写诗……每一条分享都像一颗火星,点燃了更多人的好奇心。

技术因素

因素说明
对话能力多轮对话比单次问答自然得多
指令遵循真正理解并执行用户意图
安全对齐RLHF 训练让它更安全、更「有礼貌」
通用性一个模型处理各种任务

社会/商业因素

因素说明
免费使用任何人都可以尝试,零门槛
直观交互聊天界面,不需要技术背景
病毒式传播社交媒体上的「惊艳」分享
时机2022 年底,人们对 AI 的认知处于爆发临界点

Google 的"红色警报"

SP1972-
Sundar Pichai
Google CEO,在 ChatGPT 发布后启动内部 Code Red 应急机制
"It is uncomfortably exciting — we need to lean in and accelerate."

ChatGPT 发布后不到两个月,Google CEO Sundar Pichai 在内部发布了"Code Red"警报,召集了创始人 Larry Page 和 Sergey Brin 罕见地参与紧急会议。Google 加速了 Bard(基于 LaMDA)的开发,并迅速调整了搜索战略,将 AI 概览功能整合到核心产品中。微软则通过投资 OpenAI,将 ChatGPT 技术整合到 Bing 搜索和 Office 全线产品中。

SN1967-
Satya Nadella
微软 CEO,推动微软全面转向 AI 战略
"I want people to know that we made them dance."

ChatGPT 之后的演进

OpenAI 的产品线

ChatGPT (2022.11)

  ├── GPT-4 (2023.3) — 更强的推理能力
  │     │
  │     ├── GPT-4V — 视觉能力
  │     ├── GPT-4 Turbo — 更长上下文
  │     └── GPT-4o — 多模态实时交互

  ├── Custom GPTs (2023.11) — 用户自定义 GPT

  ├── GPT Store (2024.1) — GPT 应用商店

  └── o1/o3 (2024-2025) — 推理模型

竞争格局

ChatGPT 的成功,像一场地震,震醒了整个科技行业。各大公司纷纷加速自己的 AI 项目,一场史无前例的 AI 军备竞赛由此展开。

公司产品特点
GoogleGemini多模态,Google 生态整合
AnthropicClaude长上下文,安全对齐
MetaLLaMA开源
百度文心一言中文优化
阿里通义千问中文 + 企业应用
字节豆包中文,免费策略
DeepSeekDeepSeek开源,推理能力强

对话式 AI 的应用场景

当前主要应用

领域应用
写作文案、邮件、报告、创意写作
编程代码生成、调试、解释、重构
学习解答问题、解释概念、做练习
分析数据分析、文本摘要、信息提取
翻译多语言翻译
客服自动客服、FAQ 回答

对话式 AI 的局限

仍然存在的问题:

1. 幻觉(Hallucination)
   自信地编造不存在的事实
   → 在需要准确性的场景中是致命的

2. 缺乏真正的理解
   基于统计模式匹配,不是真正的「理解」

3. 知识截止
   训练数据有截止日期,不知道最新信息

4. 推理能力有限
   复杂的多步推理仍然容易出错

5. 安全性
   可能被诱导生成有害内容
   隐私问题(用户对话数据)

本节小结

概念要点
InstructGPTSFT + RLHF 让模型学会遵循指令
ChatGPTInstructGPT + 对话界面 + 工程优化
为什么火技术突破 + 免费使用 + 直观交互 + 社交传播
行业震动Google Code Red、微软全线整合 AI
应用写作、编程、学习、分析等
局限幻觉、缺乏真正理解、知识截止、推理有限

思考题

  1. ChatGPT 的成功有多少是技术原因,多少是产品和时机的原因?如果 Google 先发布了类似产品会怎样?
  2. 对话式 AI 会取代搜索引擎吗?两者各自的优劣是什么?
  3. 幻觉问题能被彻底解决吗?如果不能,我们如何在关键场景中使用 AI?