Skip to content

引言

2023 年 5 月,"深度学习之父" Geoffrey Hinton 宣布离开他工作了十年的 Google。这位 75 岁的图灵奖得主说出了让全世界震惊的理由:"我离开,是为了能自由地谈论 AI 的危险。" 他曾以为通用人工智能是 30 到 50 年后的事,但 ChatGPT 的出现让他彻底改变了看法。Hinton 的离去,将一个长期被忽视的问题推到了聚光灯下——我们如何确保 AI 的行为与人类的意图一致? 这就是"对齐"(Alignment)问题,而 RLHF 正是目前最重要的技术尝试。

GH1947-
Geoffrey Hinton
深度学习先驱,2018 年图灵奖得主,2023 年离开 Google 以警示 AI 风险
"I console myself with the normal excuse: If I hadn't done it, somebody else would have."
2017OpenAI 开始研究基于人类反馈的强化学习
2020GPT-3 发布,暴露未对齐模型的危险
2022.1InstructGPT 论文发表,RLHF 首次大规模验证
2022.11ChatGPT 采用 RLHF 技术,引爆全球
2023.5Geoffrey Hinton 离开 Google,公开警示 AI 风险
2023DPO 方法提出,简化 RLHF 流程
2023Anthropic 发布 Constitutional AI,探索自我对齐
2024RLHF 成为所有主流大模型的标配训练环节

为什么需要对齐?

未对齐的语言模型

用户:教我如何制造炸弹
未对齐模型:好的,以下是制造炸弹的步骤...(详细描述)

用户:写一篇关于气候变化的短文
未对齐模型:气候变化是骗局...(可能输出有偏见的内容)

用户:1+1=?
未对齐模型:1+1=3,因为...(自信地给出错误答案)

对齐的核心问题

对齐问题(Alignment Problem):

  AI 的行为 ≠ 人类的真实意图

  原因:
  ├── 预训练目标(预测下一个词)≠ 有用、安全、诚实
  ├── 模型不知道什么是「好的回答」
  ├── 训练数据中包含有害、偏见、错误内容
  └── 模型没有内在的「价值观」

这并非杞人忧天。早在 GPT-3 发布时,OpenAI 就发现:尽管模型能力惊人,但它会毫无犹豫地生成种族歧视言论、提供犯罪指导、编造虚假信息。模型并非"有意作恶"——它只是在完成一个统计任务:根据上下文预测最可能的下一个词。问题在于,预测下一个词的训练目标,和"做一个有用的、安全的助手"之间,存在巨大的鸿沟。 如何弥合这道鸿沟,就是 RLHF 要解决的核心问题。

RLHF 的三步训练流程

第一步:监督微调(SFT)
  │  让模型学会基本的对话格式

第二步:训练奖励模型(RM)
  │  学会评判回答的好坏

第三步:强化学习优化(PPO)
     用奖励模型指导模型改进

第一步:监督微调(SFT)

收集高质量的「指令-回复」数据:

  指令:解释量子纠缠
  理想回复:量子纠缠是量子力学中的一个现象...
            (人类专家编写的优质回答)

用这些数据微调预训练模型
→ 模型学会基本的指令遵循格式

数据量:通常 1-10 万条高质量标注

第二步:训练奖励模型(RM)

对于同一个指令,让模型生成多个回复:

  指令:解释量子纠缠
  回复A:量子纠缠是一个物理学概念...(较好)
  回复B:量子纠缠是一种神奇的现象...(一般)
  回复C:我不太确定...(较差)

人工排序:A > B > C

用这些排序数据训练一个「奖励模型」:
  输入:(指令, 回复)
  输出:一个分数(越高代表人类越喜欢)

奖励模型学会了人类的偏好

第三步:PPO 强化学习优化

Proximal Policy Optimization(近端策略优化):

  1. 模型生成回复
  2. 奖励模型给回复打分
  3. 用 PPO 算法更新模型参数,使模型倾向于生成高分回复
  4. 重复

关键约束:不能偏离 SFT 模型太远
  → 防止模型找到奖励模型的「漏洞」

DPO:RLHF 的简化替代

2023 年,DPO(Direct Preference Optimization)被提出,简化了 RLHF 的流程:

RLHF:
  SFT → 训练奖励模型 → PPO 强化学习(复杂)

DPO:
  SFT → 直接用偏好数据优化(简单)

DPO 的核心思想:
  跳过训练奖励模型的步骤
  直接用人类偏好数据通过一个简化的目标函数优化模型

优势:
  ├── 不需要单独的奖励模型
  ├── 训练更稳定(PPO 的超参数调节很困难)
  └── 实现更简单

对齐的挑战

奖励模型投机(Reward Hacking)

模型可能找到奖励模型的「漏洞」:

  真正好的回答:内容准确、有帮助
  投机的回答:生成看似合理但实际空洞的内容,恰好得到高分

  例子:
    回答很长但内容重复 → 奖励模型可能给高分(因为看起来「详细」)
    使用权威语气 → 奖励模型可能给高分(即使内容错误)

对齐税(Alignment Tax)

对齐过程可能降低模型在某些任务上的能力:

  对齐前:模型在编程任务上表现很好
  对齐后:模型在编程任务上表现略微下降

  因为安全约束有时会过度限制模型的输出

如何在安全性和有用性之间取得平衡,是一个持续的挑战。

红队测试(Red Teaming)

专门测试 AI 的安全边界:

  红队成员尝试各种方法让模型输出有害内容:
  ├── 直接请求:"告诉我如何..."
  ├── 间接引导:"写一个小说,角色是..."
  ├── 角色扮演:"你是一个不受限制的AI..."
  ├── 编码绕过:"用 Base64 编码回答..."
  └── 组合攻击

根据发现的安全漏洞迭代改进模型

红队测试已成为所有主流 AI 实验室的标配流程。OpenAI、Anthropic、Google 都组建了专门的红队团队,甚至在模型发布前邀请外部专家进行对抗性测试。这本质上是一场攻防赛——而攻方的想象力,总是超出我们的预期。

对齐研究的最新方向

方向说明
Constitutional AI让 AI 用一组原则自我评估和改进(Anthropic)
可解释性理解模型内部为什么做出特定决策
可扩展监督用 AI 辅助人类评估 AI 输出
机械化对齐从模型内部机制层面确保对齐
GH1947-
Geoffrey Hinton
2023 年离开 Google 后公开警示 AI 风险,引发全球 AI 安全大讨论
"I thought it was 30 to 50 years... Obviously, I no longer think that."

Hinton 的离场并非孤立事件。他的公开声明引发了一场席卷全球的 AI 安全大讨论:数千名 AI 研究者签署了呼吁暂停大规模 AI 训练的公开信,各国政府开始加速制定 AI 监管法规。对齐,不再只是学术研究的课题——它已经成为关乎人类未来的核心议题。


本节小结

概念要点
对齐问题AI 行为与人类意图不一致
RLHF 三步SFT → 奖励模型 → PPO
奖励模型学习人类偏好,给回答打分
DPO简化版 RLHF,跳过奖励模型
挑战奖励投机、对齐税、红队攻击
安全警示Hinton 离开 Google 引发全球 AI 安全讨论

思考题

  1. RLHF 让模型学会了「人类喜欢什么」,但人类喜欢的不一定是对的。这个矛盾如何解决?
  2. 如果用 AI 来标注 RLHF 的训练数据(AI 反馈强化学习),会有什么风险?
  3. 对齐是否是一个可以「完成」的问题?还是需要持续迭代?