文本生成与 ChatGPT | AI 知识课程

引言

2022 年 11 月 30 日，一个看似平平无奇的星期三。OpenAI 在其博客上低调上线了一款名为 ChatGPT 的对话产品。没有人——甚至包括 OpenAI 内部的许多人——预见到接下来发生的事情。五天内，用户数突破 100 万；两个月后，1 亿人涌入这个聊天框。Google 内部拉响了"红色警报"（Code Red），微软 CEO Satya Nadella 在高管会议上说出那句著名的话："我要让全世界知道，是我们让 Google 跳起了舞。" 一个全新的 AI 时代，就这样猝不及防地拉开了序幕。

2020.6GPT-3 发布，展示强大语言能力但难以控制

2022.1InstructGPT 论文发布，RLHF 技术首次验证

2022.3InstructGPT 线上部署，为 ChatGPT 奠定基础

2022.11.30ChatGPT 上线，五天突破 100 万用户

2023.1月活突破 1 亿，成为史上增长最快消费级应用

2023.2Google 内部发布 Code Red，紧急推进 Bard 项目

2023.3GPT-4 发布，推理能力大幅提升

2023.11OpenAI 首届开发者大会，发布 GPTs 与 GPT Store

2024.5GPT-4o 发布，实现实时多模态交互

从 InstructGPT 到 ChatGPT

GPT-3 的局限

GPT-3 (2020) 的能力已经很强，但有明显问题：

用户：告诉我关于量子力学的知识
GPT-3：可能回答正确
       可能续写出一段无关的小说
       可能输出乱码

问题：
  ├── 不遵循指令（它只是续写文本，不理解「指令」概念）
  ├── 可能生成有害内容
  ├── 事实错误（幻觉）
  └── 输出格式不可控

2020 年的 GPT-3 令人惊叹，但它有一个根本性缺陷——它是一个续写机器，不是一个对话伙伴。用户给它一段文字，它会按照统计规律往下续写。如果你问它一个问题，它可能给你答案，也可能续写成一段新闻报道，甚至胡言乱语。OpenAI 研究团队意识到，光靠增加模型规模无法解决这个问题，必须在训练方法上做出根本性改变。

InstructGPT（2022.3）

OpenAI 在 GPT-3 之后的研究重点：如何让模型更「听话」？

InstructGPT 的训练三步曲：

步骤 1：监督微调（SFT）
  人工编写高质量的「指令-回复」对
  用这些数据微调 GPT-3
  → 模型学会按指令格式回答

步骤 2：奖励模型（RM）
  让模型生成多个回复
  人工对回复排序
  训练一个「奖励模型」学习人类偏好

步骤 3：强化学习（PPO）
  用奖励模型的反馈通过 PPO 算法继续优化模型
  → 模型学会生成人类更喜欢的回复

InstructGPT 的参数量其实远小于 GPT-3（只有 1.3B vs 175B），但在人类评估中，它的输出反而更受欢迎。这个结果震动了研究界：与其一味追求更大的模型，不如让模型学会什么才是好回答。这个发现，成为 ChatGPT 诞生的关键基石。

ChatGPT 的创新

ChatGPT ≈ InstructGPT + 对话界面 + 大规模工程优化

关键改进：
  ├── 对话格式：多轮对话能力
  ├── 上下文理解：记住之前的对话内容
  ├── 安全对齐：拒绝不适当的请求
  ├── 用户友好：简洁的聊天界面
  └── 免费开放：降低使用门槛

ChatGPT 为什么能火？

五天一百万用户：一场事先未计划的"事故"

据 OpenAI 联合创始人 Greg Brockman 事后回忆，团队最初的预期相当保守——他们只是想收集一些用户反馈来改进模型。没有人预见到那场"爆爆米花"式的增长。ChatGPT 上线后，社交媒体上涌出了无数截图：有人让 ChatGPT 解释相对论，有人让它写代码，有人让它模仿莎士比亚写诗……每一条分享都像一颗火星，点燃了更多人的好奇心。

技术因素

因素	说明
对话能力	多轮对话比单次问答自然得多
指令遵循	真正理解并执行用户意图
安全对齐	RLHF 训练让它更安全、更「有礼貌」
通用性	一个模型处理各种任务

社会/商业因素

因素	说明
免费使用	任何人都可以尝试，零门槛
直观交互	聊天界面，不需要技术背景
病毒式传播	社交媒体上的「惊艳」分享
时机	2022 年底，人们对 AI 的认知处于爆发临界点

Google 的"红色警报"

SP1972-

Sundar Pichai

Google CEO，在 ChatGPT 发布后启动内部 Code Red 应急机制

"It is uncomfortably exciting — we need to lean in and accelerate."

ChatGPT 发布后不到两个月，Google CEO Sundar Pichai 在内部发布了"Code Red"警报，召集了创始人 Larry Page 和 Sergey Brin 罕见地参与紧急会议。Google 加速了 Bard（基于 LaMDA）的开发，并迅速调整了搜索战略，将 AI 概览功能整合到核心产品中。微软则通过投资 OpenAI，将 ChatGPT 技术整合到 Bing 搜索和 Office 全线产品中。

SN1967-

Satya Nadella

微软 CEO，推动微软全面转向 AI 战略

"I want people to know that we made them dance."

ChatGPT 之后的演进

OpenAI 的产品线

ChatGPT (2022.11)
  │
  ├── GPT-4 (2023.3) — 更强的推理能力
  │     │
  │     ├── GPT-4V — 视觉能力
  │     ├── GPT-4 Turbo — 更长上下文
  │     └── GPT-4o — 多模态实时交互
  │
  ├── Custom GPTs (2023.11) — 用户自定义 GPT
  │
  ├── GPT Store (2024.1) — GPT 应用商店
  │
  └── o1/o3 (2024-2025) — 推理模型

竞争格局

ChatGPT 的成功，像一场地震，震醒了整个科技行业。各大公司纷纷加速自己的 AI 项目，一场史无前例的 AI 军备竞赛由此展开。

公司	产品	特点
Google	Gemini	多模态，Google 生态整合
Anthropic	Claude	长上下文，安全对齐
Meta	LLaMA	开源
百度	文心一言	中文优化
阿里	通义千问	中文 + 企业应用
字节	豆包	中文，免费策略
DeepSeek	DeepSeek	开源，推理能力强

对话式 AI 的应用场景

当前主要应用

领域	应用
写作	文案、邮件、报告、创意写作
编程	代码生成、调试、解释、重构
学习	解答问题、解释概念、做练习
分析	数据分析、文本摘要、信息提取
翻译	多语言翻译
客服	自动客服、FAQ 回答

对话式 AI 的局限

仍然存在的问题：

1. 幻觉（Hallucination）
   自信地编造不存在的事实
   → 在需要准确性的场景中是致命的

2. 缺乏真正的理解
   基于统计模式匹配，不是真正的「理解」

3. 知识截止
   训练数据有截止日期，不知道最新信息

4. 推理能力有限
   复杂的多步推理仍然容易出错

5. 安全性
   可能被诱导生成有害内容
   隐私问题（用户对话数据）

本节小结

概念	要点
InstructGPT	SFT + RLHF 让模型学会遵循指令
ChatGPT	InstructGPT + 对话界面 + 工程优化
为什么火	技术突破 + 免费使用 + 直观交互 + 社交传播
行业震动	Google Code Red、微软全线整合 AI
应用	写作、编程、学习、分析等
局限	幻觉、缺乏真正理解、知识截止、推理有限

思考题

ChatGPT 的成功有多少是技术原因，多少是产品和时机的原因？如果 Google 先发布了类似产品会怎样？
对话式 AI 会取代搜索引擎吗？两者各自的优劣是什么？
幻觉问题能被彻底解决吗？如果不能，我们如何在关键场景中使用 AI？

引言 ​

从 InstructGPT 到 ChatGPT ​

GPT-3 的局限 ​

InstructGPT（2022.3） ​

ChatGPT 的创新 ​

ChatGPT 为什么能火？ ​

五天一百万用户：一场事先未计划的"事故" ​

技术因素 ​

社会/商业因素 ​

Google 的"红色警报" ​

ChatGPT 之后的演进 ​

OpenAI 的产品线 ​

竞争格局 ​

对话式 AI 的应用场景 ​

当前主要应用 ​

对话式 AI 的局限 ​

本节小结 ​

思考题 ​

引言