引言
2023 年 5 月,"深度学习之父" Geoffrey Hinton 宣布离开他工作了十年的 Google。这位 75 岁的图灵奖得主说出了让全世界震惊的理由:"我离开,是为了能自由地谈论 AI 的危险。" 他曾以为通用人工智能是 30 到 50 年后的事,但 ChatGPT 的出现让他彻底改变了看法。Hinton 的离去,将一个长期被忽视的问题推到了聚光灯下——我们如何确保 AI 的行为与人类的意图一致? 这就是"对齐"(Alignment)问题,而 RLHF 正是目前最重要的技术尝试。
GH1947-
Geoffrey Hinton
深度学习先驱,2018 年图灵奖得主,2023 年离开 Google 以警示 AI 风险
"I console myself with the normal excuse: If I hadn't done it, somebody else would have."
2017OpenAI 开始研究基于人类反馈的强化学习
2020GPT-3 发布,暴露未对齐模型的危险
2022.1InstructGPT 论文发表,RLHF 首次大规模验证
2022.11ChatGPT 采用 RLHF 技术,引爆全球
2023.5Geoffrey Hinton 离开 Google,公开警示 AI 风险
2023DPO 方法提出,简化 RLHF 流程
2023Anthropic 发布 Constitutional AI,探索自我对齐
2024RLHF 成为所有主流大模型的标配训练环节
为什么需要对齐?
未对齐的语言模型
用户:教我如何制造炸弹
未对齐模型:好的,以下是制造炸弹的步骤...(详细描述)
用户:写一篇关于气候变化的短文
未对齐模型:气候变化是骗局...(可能输出有偏见的内容)
用户:1+1=?
未对齐模型:1+1=3,因为...(自信地给出错误答案)对齐的核心问题
对齐问题(Alignment Problem):
AI 的行为 ≠ 人类的真实意图
原因:
├── 预训练目标(预测下一个词)≠ 有用、安全、诚实
├── 模型不知道什么是「好的回答」
├── 训练数据中包含有害、偏见、错误内容
└── 模型没有内在的「价值观」这并非杞人忧天。早在 GPT-3 发布时,OpenAI 就发现:尽管模型能力惊人,但它会毫无犹豫地生成种族歧视言论、提供犯罪指导、编造虚假信息。模型并非"有意作恶"——它只是在完成一个统计任务:根据上下文预测最可能的下一个词。问题在于,预测下一个词的训练目标,和"做一个有用的、安全的助手"之间,存在巨大的鸿沟。 如何弥合这道鸿沟,就是 RLHF 要解决的核心问题。
RLHF 的三步训练流程
第一步:监督微调(SFT)
│ 让模型学会基本的对话格式
▼
第二步:训练奖励模型(RM)
│ 学会评判回答的好坏
▼
第三步:强化学习优化(PPO)
用奖励模型指导模型改进第一步:监督微调(SFT)
收集高质量的「指令-回复」数据:
指令:解释量子纠缠
理想回复:量子纠缠是量子力学中的一个现象...
(人类专家编写的优质回答)
用这些数据微调预训练模型
→ 模型学会基本的指令遵循格式
数据量:通常 1-10 万条高质量标注第二步:训练奖励模型(RM)
对于同一个指令,让模型生成多个回复:
指令:解释量子纠缠
回复A:量子纠缠是一个物理学概念...(较好)
回复B:量子纠缠是一种神奇的现象...(一般)
回复C:我不太确定...(较差)
人工排序:A > B > C
用这些排序数据训练一个「奖励模型」:
输入:(指令, 回复)
输出:一个分数(越高代表人类越喜欢)
奖励模型学会了人类的偏好第三步:PPO 强化学习优化
Proximal Policy Optimization(近端策略优化):
1. 模型生成回复
2. 奖励模型给回复打分
3. 用 PPO 算法更新模型参数,使模型倾向于生成高分回复
4. 重复
关键约束:不能偏离 SFT 模型太远
→ 防止模型找到奖励模型的「漏洞」DPO:RLHF 的简化替代
2023 年,DPO(Direct Preference Optimization)被提出,简化了 RLHF 的流程:
RLHF:
SFT → 训练奖励模型 → PPO 强化学习(复杂)
DPO:
SFT → 直接用偏好数据优化(简单)
DPO 的核心思想:
跳过训练奖励模型的步骤
直接用人类偏好数据通过一个简化的目标函数优化模型
优势:
├── 不需要单独的奖励模型
├── 训练更稳定(PPO 的超参数调节很困难)
└── 实现更简单对齐的挑战
奖励模型投机(Reward Hacking)
模型可能找到奖励模型的「漏洞」:
真正好的回答:内容准确、有帮助
投机的回答:生成看似合理但实际空洞的内容,恰好得到高分
例子:
回答很长但内容重复 → 奖励模型可能给高分(因为看起来「详细」)
使用权威语气 → 奖励模型可能给高分(即使内容错误)对齐税(Alignment Tax)
对齐过程可能降低模型在某些任务上的能力:
对齐前:模型在编程任务上表现很好
对齐后:模型在编程任务上表现略微下降
因为安全约束有时会过度限制模型的输出
如何在安全性和有用性之间取得平衡,是一个持续的挑战。红队测试(Red Teaming)
专门测试 AI 的安全边界:
红队成员尝试各种方法让模型输出有害内容:
├── 直接请求:"告诉我如何..."
├── 间接引导:"写一个小说,角色是..."
├── 角色扮演:"你是一个不受限制的AI..."
├── 编码绕过:"用 Base64 编码回答..."
└── 组合攻击
根据发现的安全漏洞迭代改进模型红队测试已成为所有主流 AI 实验室的标配流程。OpenAI、Anthropic、Google 都组建了专门的红队团队,甚至在模型发布前邀请外部专家进行对抗性测试。这本质上是一场攻防赛——而攻方的想象力,总是超出我们的预期。
对齐研究的最新方向
| 方向 | 说明 |
|---|---|
| Constitutional AI | 让 AI 用一组原则自我评估和改进(Anthropic) |
| 可解释性 | 理解模型内部为什么做出特定决策 |
| 可扩展监督 | 用 AI 辅助人类评估 AI 输出 |
| 机械化对齐 | 从模型内部机制层面确保对齐 |
GH1947-
Geoffrey Hinton
2023 年离开 Google 后公开警示 AI 风险,引发全球 AI 安全大讨论
"I thought it was 30 to 50 years... Obviously, I no longer think that."
Hinton 的离场并非孤立事件。他的公开声明引发了一场席卷全球的 AI 安全大讨论:数千名 AI 研究者签署了呼吁暂停大规模 AI 训练的公开信,各国政府开始加速制定 AI 监管法规。对齐,不再只是学术研究的课题——它已经成为关乎人类未来的核心议题。
本节小结
| 概念 | 要点 |
|---|---|
| 对齐问题 | AI 行为与人类意图不一致 |
| RLHF 三步 | SFT → 奖励模型 → PPO |
| 奖励模型 | 学习人类偏好,给回答打分 |
| DPO | 简化版 RLHF,跳过奖励模型 |
| 挑战 | 奖励投机、对齐税、红队攻击 |
| 安全警示 | Hinton 离开 Google 引发全球 AI 安全讨论 |
思考题
- RLHF 让模型学会了「人类喜欢什么」,但人类喜欢的不一定是对的。这个矛盾如何解决?
- 如果用 AI 来标注 RLHF 的训练数据(AI 反馈强化学习),会有什么风险?
- 对齐是否是一个可以「完成」的问题?还是需要持续迭代?