AlphaGo：强化学习的里程碑

引言

2016 年 3 月 9 日，韩国首尔四季酒店。一个历史上被预测"还要再等十年"的事件，正在发生。

围棋世界冠军李世石坐在棋盘前。他的对手不是一个人，而是一个程序——Google DeepMind 的 AlphaGo。全球 2 亿人通过直播观看这场比赛。

围棋被称为人类智力的最后堡垒。它的状态空间比可观测宇宙中的原子数还多——约 10¹⁷⁰ 种可能。专家们曾一致认为，至少要到 2025 年，AI 才能在围棋上击败人类顶尖棋手。

但当第一局结束，李世石中盘认输时，所有人的时间表都被撕碎了。

为什么围棋这么难？

复杂度对比

游戏	状态空间	何时被 AI 攻克
井字棋	~10³	简单程序即可
国际象棋	~10⁴⁷	1997 年（Deep Blue）
围棋	~10¹⁷⁰	2016 年（AlphaGo）

为什么传统方法不行？

国际象棋的策略：
  Minimax 搜索 + Alpha-Beta 剪枝 + 评估函数
  → 搜索深度有限，但评估函数可以较好地估计局面

围棋的困难：
  ├── 棋盘 19×19，每步有 ~250 个合法位置
  ├── 一局平均 ~150 手 → 250^150 种可能
  ├── 无法穷举搜索
  ├── 局面评估极其困难（不像象棋有明确的子力价值）
  └── 直觉和「棋感」很重要（人类专家难以用语言解释）

人类围棋高手常常无法解释为什么某一步是"好棋"——它依赖于经年累月磨炼出的直觉。这种直觉，恰恰是传统 AI 最不具备的东西。

AlphaGo 背后的人

DH1976-

Demis Hassabis

DeepMind 创始人兼 CEO，神经科学家

"我的终极目标是解决智能问题，然后用智能来解决一切其他问题。"

Demis Hassabis 的经历本身就是一部传奇。13 岁达到国际象棋大师水平，17 岁参与设计经典游戏《Theme Park》，随后在伦敦大学学院获得神经科学博士学位，2010 年创立 DeepMind。他的目标是：先用游戏证明 AI 的能力，然后解决真正重要的问题。

围棋，就是他选中的终极考场。

AlphaGo 的方法

三大核心组件

AlphaGo = 深度神经网络 + 蒙特卡洛树搜索 + 强化学习

┌─────────────────────────────────────────────┐
│              AlphaGo 系统架构                 │
│                                             │
│  ┌───────────┐  ┌───────────┐              │
│  │ 策略网络    │  │ 价值网络    │              │
│  │ Policy Net │  │ Value Net  │              │
│  │ 「下一步走哪」│  │ 「局面谁赢」 │              │
│  └─────┬─────┘  └─────┬─────┘              │
│        │              │                     │
│        └──────┬───────┘                     │
│               ▼                             │
│     ┌──────────────────┐                    │
│     │ 蒙特卡洛树搜索     │                    │
│     │ (MCTS)           │                    │
│     │ 结合两个网络的输出  │                    │
│     │ 进行高效搜索       │                    │
│     └──────────────────┘                    │
└─────────────────────────────────────────────┘

1. 策略网络（Policy Network）

输入：当前棋盘状态
输出：每个合法位置的概率分布
作用：「专家在这一步可能会走哪里」

训练过程：
  第一阶段（监督学习）：
    用人类高手的 3000 万步棋谱训练
    预测人类专家的下一步
    → 准确率 57%

  第二阶段（强化学习）：
    让策略网络自我对弈
    用策略梯度优化
    → 超越人类专家水平

2. 价值网络（Value Network）

输入：当前棋盘状态
输出：一个 [-1, 1] 的数值
作用：「从当前局面看，谁更有可能赢」

训练：
  用策略网络自我对弈生成 3000 万局棋
  对每个局面标注最终胜负结果
  训练网络预测最终胜率

3. 蒙特卡洛树搜索（MCTS）

MCTS 的四个阶段：

1. 选择（Selection）
   从根节点开始，根据策略网络选择最有希望的分支
   │
   ▼
2. 扩展（Expansion）
   到达未探索的节点时，展开一个新的棋步
   │
   ▼
3. 评估（Evaluation）
   用价值网络评估新局面（同时用快速策略模拟到终局）
   │
   ▼
4. 回溯（Backpropagation）
   将评估结果沿路径回传，更新沿途节点的统计信息

重复数万次 → 选择访问次数最多的棋步

五局大战：两个历史性的瞬间

李S1983-

李世石（Lee Sedol）

围棋十八冠王，世界冠军

"我没想到它会这么强。我从不曾经历过如此巨大的压力。"

2016 年 3 月 9 日至 15 日，AlphaGo 与李世石的五局比赛，每一局都跌宕起伏。但其中有两局，注定被写入历史。

第 37 手（第二局）——AI 的"创造力"

第二局第 37 手，AlphaGo 下了一步棋，落子在棋盘的第五线——这在人类围棋理论中被认为是"过早"的。

现场的解说员最初以为这是一个失误。李世石也愣了一下，甚至离开了座位。

但随着棋局的推进，这步棋的深意逐渐显现。它为 AlphaGo 后续的势力范围埋下了伏笔，最终成为决定胜负的关键一手。围棋专家们事后复盘时惊叹：这步棋展现了一种超越人类经验的创造力。 没有人类棋手会这样下。但 AlphaGo 通过自我对弈，发现了一条人类从未走过的路径。

第 78 手（第四局）——人类的反击

前三局 AlphaGo 连胜，所有人都以为比赛会以 5:0 结束。但第四局第 78 手，李世石下出了被称为**「神之一手」**的棋。

AlphaGo vs 李世石 第四局第 78 手：

李世石下出了被称为「神之一手」的一步棋
→ AlphaGo 当时的胜率从 70% 骤降到 10%
→ 李世石赢下了对 AlphaGo 唯一的一局

这一幕成为了人机关系的重要隐喻：
  AI 极其强大，但并非不可战胜
  人类的创造力和直觉仍然有价值

赛后，DeepMind 团队分析了这一手：李世石发现了一个 AlphaGo 的评估盲区——一个极其罕见的局面，AI 的价值网络给出了错误的判断。

这一手证明了：即使在 AI 全面超越人类的时代，人类仍然有能力找到机器的弱点。正如李世石在赛后发布会上说："这是我人生中最重要的一场胜利。"

AlphaGo 的演进

2015.10AlphaGo Fan：在正式比赛中首次击败职业棋手樊麾（2 段），比分 5:0

2016.03AlphaGo Lee：在首尔击败世界冠军李世石（9 段），比分 4:1，全球 2 亿人观看

2016.12AlphaGo Master：在线对战人类顶尖高手 60 连胜，未尝败绩

2017.05AlphaGo Master：在乌镇围棋峰会上击败柯洁（世界排名第一），比分 3:0

2017.10AlphaGo Zero：完全不使用人类棋谱，从零自我对弈，40 天超越所有之前版本

2017.12AlphaZero：通用版，同一算法学会围棋、国际象棋、将棋，全部达到超人类水平

版本	时间	特点	成绩
AlphaGo Fan	2015.10	首次击败职业棋手樊麾	5:0
AlphaGo Lee	2016.03	击败李世石	4:1
AlphaGo Master	2016.12	在线 60 连胜人类顶尖高手	60:0
AlphaGo Zero	2017.10	完全不使用人类棋谱，从零自我对弈	击败 AlphaGo Lee 100:0
AlphaZero	2017.12	通用版，同一算法学会围棋、象棋、将棋	全部达到超人类水平

AlphaGo Zero 的突破

AlphaGo 的训练流程：
  人类棋谱 → 监督学习 → 强化学习 → MCTS

AlphaGo Zero 的训练流程：
  随机下棋 → 自我对弈 → MCTS
  （完全没有人类知识输入）

关键发现：
  Zero 在 3 天后超越了 AlphaGo Lee
  在 21 天后超越了 AlphaGo Master
  在 40 天后超越了所有之前的版本

Zero 甚至发现了人类从未发现的围棋策略

AlphaGo Zero 的成功带来了一个深刻的哲学冲击：不学习人类经验的 AI 反而更强。 人类几千年积累的围棋知识，对 AI 来说不是助力，而可能是一种限制。当 AI 完全从零开始探索时，它发现了一个更广阔的策略空间——一个人类从未触及的世界。

AlphaGo 的启示

对 AI 研究的影响

1. 深度学习 + 强化学习 = 强大组合
   DRL（深度强化学习）成为热门研究方向

2. 自我对弈 > 模仿人类
   不使用人类数据的 AlphaGo Zero 更强
   → 启发了后来的 AI 系统

3. 搜索 + 学习 = 超越纯搜索或纯学习
   MCTS + 神经网络 > 单独使用任何一方

4. 通用性
   AlphaZero 证明了同一算法可以掌握多种游戏

对社会的冲击

AlphaGo 的影响远远超出了围棋界。2016 年之后，全球 AI 投资急剧升温。各国政府开始将 AI 列为国家战略。公众第一次真切地感受到：AI 不是一个遥远的科幻概念，它已经来了。

本节小结

概念	要点
围棋难度	10¹⁷⁰ 种状态，传统搜索方法无法处理
核心人物	Demis Hassabis（DeepMind 创始人），李世石（十八冠王）
策略网络	预测下一步走哪，从人类棋谱和自我对弈中学习
价值网络	评估局面胜率
MCTS	结合两个网络进行高效搜索
第 37 手	AlphaGo 展现超越人类的创造力
第 78 手	李世石的「神之一手」，证明人类仍有价值
AlphaGo Zero	完全不用人类数据，从零自学，更强
AlphaZero	同一算法通吃围棋、象棋、将棋

思考题

AlphaGo Zero 不使用人类棋谱却更强，这说明什么？人类经验在什么情况下反而是限制？
搜索（MCTS）和学习（神经网络）的配合为什么比单独使用更强？这个思想能否应用到其他领域？
AlphaGo 的成功让人们意识到 AI 可能比预想更快到来。这对 2016 年之后的 AI 投资热潮有什么影响？

引言 ​

为什么围棋这么难？ ​

复杂度对比 ​

为什么传统方法不行？ ​

AlphaGo 背后的人 ​

AlphaGo 的方法 ​

三大核心组件 ​

1. 策略网络（Policy Network） ​

2. 价值网络（Value Network） ​

3. 蒙特卡洛树搜索（MCTS） ​

五局大战：两个历史性的瞬间 ​

第 37 手（第二局）——AI 的"创造力" ​

第 78 手（第四局）——人类的反击 ​

AlphaGo 的演进 ​

AlphaGo Zero 的突破 ​

AlphaGo 的启示 ​

对 AI 研究的影响 ​

对社会的冲击 ​

本节小结 ​

思考题 ​

延伸阅读 ​

引言