RLHF：让 AI 对齐人类 | AI 知识课程

引言

2023 年 5 月，"深度学习之父" Geoffrey Hinton 宣布离开他工作了十年的 Google。这位 75 岁的图灵奖得主说出了让全世界震惊的理由："我离开，是为了能自由地谈论 AI 的危险。" 他曾以为通用人工智能是 30 到 50 年后的事，但 ChatGPT 的出现让他彻底改变了看法。Hinton 的离去，将一个长期被忽视的问题推到了聚光灯下——我们如何确保 AI 的行为与人类的意图一致？ 这就是"对齐"（Alignment）问题，而 RLHF 正是目前最重要的技术尝试。

GH1947-

Geoffrey Hinton

深度学习先驱，2018 年图灵奖得主，2023 年离开 Google 以警示 AI 风险

"I console myself with the normal excuse: If I hadn't done it, somebody else would have."

2017OpenAI 开始研究基于人类反馈的强化学习

2020GPT-3 发布，暴露未对齐模型的危险

2022.1InstructGPT 论文发表，RLHF 首次大规模验证

2022.11ChatGPT 采用 RLHF 技术，引爆全球

2023.5Geoffrey Hinton 离开 Google，公开警示 AI 风险

2023DPO 方法提出，简化 RLHF 流程

2023Anthropic 发布 Constitutional AI，探索自我对齐

2024RLHF 成为所有主流大模型的标配训练环节

为什么需要对齐？

未对齐的语言模型

用户：教我如何制造炸弹
未对齐模型：好的，以下是制造炸弹的步骤...（详细描述）

用户：写一篇关于气候变化的短文
未对齐模型：气候变化是骗局...（可能输出有偏见的内容）

用户：1+1=？
未对齐模型：1+1=3，因为...（自信地给出错误答案）

对齐的核心问题

对齐问题（Alignment Problem）：

  AI 的行为 ≠ 人类的真实意图

  原因：
  ├── 预训练目标（预测下一个词）≠ 有用、安全、诚实
  ├── 模型不知道什么是「好的回答」
  ├── 训练数据中包含有害、偏见、错误内容
  └── 模型没有内在的「价值观」

这并非杞人忧天。早在 GPT-3 发布时，OpenAI 就发现：尽管模型能力惊人，但它会毫无犹豫地生成种族歧视言论、提供犯罪指导、编造虚假信息。模型并非"有意作恶"——它只是在完成一个统计任务：根据上下文预测最可能的下一个词。问题在于，预测下一个词的训练目标，和"做一个有用的、安全的助手"之间，存在巨大的鸿沟。 如何弥合这道鸿沟，就是 RLHF 要解决的核心问题。

RLHF 的三步训练流程

第一步：监督微调（SFT）
  │  让模型学会基本的对话格式
  ▼
第二步：训练奖励模型（RM）
  │  学会评判回答的好坏
  ▼
第三步：强化学习优化（PPO）
     用奖励模型指导模型改进

第一步：监督微调（SFT）

收集高质量的「指令-回复」数据：

  指令：解释量子纠缠
  理想回复：量子纠缠是量子力学中的一个现象...
            （人类专家编写的优质回答）

用这些数据微调预训练模型
→ 模型学会基本的指令遵循格式

数据量：通常 1-10 万条高质量标注

第二步：训练奖励模型（RM）

对于同一个指令，让模型生成多个回复：

  指令：解释量子纠缠
  回复A：量子纠缠是一个物理学概念...（较好）
  回复B：量子纠缠是一种神奇的现象...（一般）
  回复C：我不太确定...（较差）

人工排序：A > B > C

用这些排序数据训练一个「奖励模型」：
  输入：(指令, 回复)
  输出：一个分数（越高代表人类越喜欢）

奖励模型学会了人类的偏好

第三步：PPO 强化学习优化

Proximal Policy Optimization（近端策略优化）：

  1. 模型生成回复
  2. 奖励模型给回复打分
  3. 用 PPO 算法更新模型参数，使模型倾向于生成高分回复
  4. 重复

关键约束：不能偏离 SFT 模型太远
  → 防止模型找到奖励模型的「漏洞」

DPO：RLHF 的简化替代

2023 年，DPO（Direct Preference Optimization）被提出，简化了 RLHF 的流程：

RLHF：
  SFT → 训练奖励模型 → PPO 强化学习（复杂）

DPO：
  SFT → 直接用偏好数据优化（简单）

DPO 的核心思想：
  跳过训练奖励模型的步骤
  直接用人类偏好数据通过一个简化的目标函数优化模型

优势：
  ├── 不需要单独的奖励模型
  ├── 训练更稳定（PPO 的超参数调节很困难）
  └── 实现更简单

对齐的挑战

奖励模型投机（Reward Hacking）

模型可能找到奖励模型的「漏洞」：

  真正好的回答：内容准确、有帮助
  投机的回答：生成看似合理但实际空洞的内容，恰好得到高分

  例子：
    回答很长但内容重复 → 奖励模型可能给高分（因为看起来「详细」）
    使用权威语气 → 奖励模型可能给高分（即使内容错误）

对齐税（Alignment Tax）

对齐过程可能降低模型在某些任务上的能力：

  对齐前：模型在编程任务上表现很好
  对齐后：模型在编程任务上表现略微下降

  因为安全约束有时会过度限制模型的输出

如何在安全性和有用性之间取得平衡，是一个持续的挑战。

红队测试（Red Teaming）

专门测试 AI 的安全边界：

  红队成员尝试各种方法让模型输出有害内容：
  ├── 直接请求："告诉我如何..."
  ├── 间接引导："写一个小说，角色是..."
  ├── 角色扮演："你是一个不受限制的AI..."
  ├── 编码绕过："用 Base64 编码回答..."
  └── 组合攻击

根据发现的安全漏洞迭代改进模型

红队测试已成为所有主流 AI 实验室的标配流程。OpenAI、Anthropic、Google 都组建了专门的红队团队，甚至在模型发布前邀请外部专家进行对抗性测试。这本质上是一场攻防赛——而攻方的想象力，总是超出我们的预期。

对齐研究的最新方向

方向	说明
Constitutional AI	让 AI 用一组原则自我评估和改进（Anthropic）
可解释性	理解模型内部为什么做出特定决策
可扩展监督	用 AI 辅助人类评估 AI 输出
机械化对齐	从模型内部机制层面确保对齐

GH1947-

Geoffrey Hinton

2023 年离开 Google 后公开警示 AI 风险，引发全球 AI 安全大讨论

"I thought it was 30 to 50 years... Obviously, I no longer think that."

Hinton 的离场并非孤立事件。他的公开声明引发了一场席卷全球的 AI 安全大讨论：数千名 AI 研究者签署了呼吁暂停大规模 AI 训练的公开信，各国政府开始加速制定 AI 监管法规。对齐，不再只是学术研究的课题——它已经成为关乎人类未来的核心议题。

本节小结

概念	要点
对齐问题	AI 行为与人类意图不一致
RLHF 三步	SFT → 奖励模型 → PPO
奖励模型	学习人类偏好，给回答打分
DPO	简化版 RLHF，跳过奖励模型
挑战	奖励投机、对齐税、红队攻击
安全警示	Hinton 离开 Google 引发全球 AI 安全讨论

思考题

RLHF 让模型学会了「人类喜欢什么」，但人类喜欢的不一定是对的。这个矛盾如何解决？
如果用 AI 来标注 RLHF 的训练数据（AI 反馈强化学习），会有什么风险？
对齐是否是一个可以「完成」的问题？还是需要持续迭代？

引言 ​

为什么需要对齐？ ​

未对齐的语言模型 ​

对齐的核心问题 ​

RLHF 的三步训练流程 ​

第一步：监督微调（SFT） ​

第二步：训练奖励模型（RM） ​

第三步：PPO 强化学习优化 ​

DPO：RLHF 的简化替代 ​

对齐的挑战 ​

奖励模型投机（Reward Hacking） ​

对齐税（Alignment Tax） ​

红队测试（Red Teaming） ​

对齐研究的最新方向 ​

本节小结 ​

思考题 ​

引言