Skip to content

引言

2016 年 3 月 9 日,韩国首尔四季酒店。一个历史上被预测"还要再等十年"的事件,正在发生。

围棋世界冠军李世石坐在棋盘前。他的对手不是一个人,而是一个程序——Google DeepMind 的 AlphaGo。全球 2 亿人通过直播观看这场比赛。

围棋被称为人类智力的最后堡垒。它的状态空间比可观测宇宙中的原子数还多——约 10¹⁷⁰ 种可能。专家们曾一致认为,至少要到 2025 年,AI 才能在围棋上击败人类顶尖棋手。

但当第一局结束,李世石中盘认输时,所有人的时间表都被撕碎了。


为什么围棋这么难?

复杂度对比

游戏状态空间何时被 AI 攻克
井字棋~10³简单程序即可
国际象棋~10⁴⁷1997 年(Deep Blue)
围棋~10¹⁷⁰2016 年(AlphaGo)

为什么传统方法不行?

国际象棋的策略:
  Minimax 搜索 + Alpha-Beta 剪枝 + 评估函数
  → 搜索深度有限,但评估函数可以较好地估计局面

围棋的困难:
  ├── 棋盘 19×19,每步有 ~250 个合法位置
  ├── 一局平均 ~150 手 → 250^150 种可能
  ├── 无法穷举搜索
  ├── 局面评估极其困难(不像象棋有明确的子力价值)
  └── 直觉和「棋感」很重要(人类专家难以用语言解释)

人类围棋高手常常无法解释为什么某一步是"好棋"——它依赖于经年累月磨炼出的直觉。这种直觉,恰恰是传统 AI 最不具备的东西。

AlphaGo 背后的人

DH1976-
Demis Hassabis
DeepMind 创始人兼 CEO,神经科学家
"我的终极目标是解决智能问题,然后用智能来解决一切其他问题。"

Demis Hassabis 的经历本身就是一部传奇。13 岁达到国际象棋大师水平,17 岁参与设计经典游戏《Theme Park》,随后在伦敦大学学院获得神经科学博士学位,2010 年创立 DeepMind。他的目标是:先用游戏证明 AI 的能力,然后解决真正重要的问题。

围棋,就是他选中的终极考场。

AlphaGo 的方法

三大核心组件

AlphaGo = 深度神经网络 + 蒙特卡洛树搜索 + 强化学习

┌─────────────────────────────────────────────┐
│              AlphaGo 系统架构                 │
│                                             │
│  ┌───────────┐  ┌───────────┐              │
│  │ 策略网络    │  │ 价值网络    │              │
│  │ Policy Net │  │ Value Net  │              │
│  │ 「下一步走哪」│  │ 「局面谁赢」 │              │
│  └─────┬─────┘  └─────┬─────┘              │
│        │              │                     │
│        └──────┬───────┘                     │
│               ▼                             │
│     ┌──────────────────┐                    │
│     │ 蒙特卡洛树搜索     │                    │
│     │ (MCTS)           │                    │
│     │ 结合两个网络的输出  │                    │
│     │ 进行高效搜索       │                    │
│     └──────────────────┘                    │
└─────────────────────────────────────────────┘

1. 策略网络(Policy Network)

输入:当前棋盘状态
输出:每个合法位置的概率分布
作用:「专家在这一步可能会走哪里」

训练过程:
  第一阶段(监督学习):
    用人类高手的 3000 万步棋谱训练
    预测人类专家的下一步
    → 准确率 57%

  第二阶段(强化学习):
    让策略网络自我对弈
    用策略梯度优化
    → 超越人类专家水平

2. 价值网络(Value Network)

输入:当前棋盘状态
输出:一个 [-1, 1] 的数值
作用:「从当前局面看,谁更有可能赢」

训练:
  用策略网络自我对弈生成 3000 万局棋
  对每个局面标注最终胜负结果
  训练网络预测最终胜率

3. 蒙特卡洛树搜索(MCTS)

MCTS 的四个阶段:

1. 选择(Selection)
   从根节点开始,根据策略网络选择最有希望的分支


2. 扩展(Expansion)
   到达未探索的节点时,展开一个新的棋步


3. 评估(Evaluation)
   用价值网络评估新局面(同时用快速策略模拟到终局)


4. 回溯(Backpropagation)
   将评估结果沿路径回传,更新沿途节点的统计信息

重复数万次 → 选择访问次数最多的棋步

五局大战:两个历史性的瞬间

李S1983-
李世石(Lee Sedol)
围棋十八冠王,世界冠军
"我没想到它会这么强。我从不曾经历过如此巨大的压力。"

2016 年 3 月 9 日至 15 日,AlphaGo 与李世石的五局比赛,每一局都跌宕起伏。但其中有两局,注定被写入历史。

第 37 手(第二局)——AI 的"创造力"

第二局第 37 手,AlphaGo 下了一步棋,落子在棋盘的第五线——这在人类围棋理论中被认为是"过早"的。

现场的解说员最初以为这是一个失误。李世石也愣了一下,甚至离开了座位。

但随着棋局的推进,这步棋的深意逐渐显现。它为 AlphaGo 后续的势力范围埋下了伏笔,最终成为决定胜负的关键一手。围棋专家们事后复盘时惊叹:这步棋展现了一种超越人类经验的创造力。 没有人类棋手会这样下。但 AlphaGo 通过自我对弈,发现了一条人类从未走过的路径。

第 78 手(第四局)——人类的反击

前三局 AlphaGo 连胜,所有人都以为比赛会以 5:0 结束。但第四局第 78 手,李世石下出了被称为**「神之一手」**的棋。

AlphaGo vs 李世石 第四局第 78 手:

李世石下出了被称为「神之一手」的一步棋
→ AlphaGo 当时的胜率从 70% 骤降到 10%
→ 李世石赢下了对 AlphaGo 唯一的一局

这一幕成为了人机关系的重要隐喻:
  AI 极其强大,但并非不可战胜
  人类的创造力和直觉仍然有价值

赛后,DeepMind 团队分析了这一手:李世石发现了一个 AlphaGo 的评估盲区——一个极其罕见的局面,AI 的价值网络给出了错误的判断。

这一手证明了:即使在 AI 全面超越人类的时代,人类仍然有能力找到机器的弱点。正如李世石在赛后发布会上说:"这是我人生中最重要的一场胜利。"

AlphaGo 的演进

2015.10AlphaGo Fan:在正式比赛中首次击败职业棋手樊麾(2 段),比分 5:0
2016.03AlphaGo Lee:在首尔击败世界冠军李世石(9 段),比分 4:1,全球 2 亿人观看
2016.12AlphaGo Master:在线对战人类顶尖高手 60 连胜,未尝败绩
2017.05AlphaGo Master:在乌镇围棋峰会上击败柯洁(世界排名第一),比分 3:0
2017.10AlphaGo Zero:完全不使用人类棋谱,从零自我对弈,40 天超越所有之前版本
2017.12AlphaZero:通用版,同一算法学会围棋、国际象棋、将棋,全部达到超人类水平
版本时间特点成绩
AlphaGo Fan2015.10首次击败职业棋手樊麾5:0
AlphaGo Lee2016.03击败李世石4:1
AlphaGo Master2016.12在线 60 连胜人类顶尖高手60:0
AlphaGo Zero2017.10完全不使用人类棋谱,从零自我对弈击败 AlphaGo Lee 100:0
AlphaZero2017.12通用版,同一算法学会围棋、象棋、将棋全部达到超人类水平

AlphaGo Zero 的突破

AlphaGo 的训练流程:
  人类棋谱 → 监督学习 → 强化学习 → MCTS

AlphaGo Zero 的训练流程:
  随机下棋 → 自我对弈 → MCTS
  (完全没有人类知识输入)

关键发现:
  Zero 在 3 天后超越了 AlphaGo Lee
  在 21 天后超越了 AlphaGo Master
  在 40 天后超越了所有之前的版本

Zero 甚至发现了人类从未发现的围棋策略

AlphaGo Zero 的成功带来了一个深刻的哲学冲击:不学习人类经验的 AI 反而更强。 人类几千年积累的围棋知识,对 AI 来说不是助力,而可能是一种限制。当 AI 完全从零开始探索时,它发现了一个更广阔的策略空间——一个人类从未触及的世界。

AlphaGo 的启示

对 AI 研究的影响

1. 深度学习 + 强化学习 = 强大组合
   DRL(深度强化学习)成为热门研究方向

2. 自我对弈 > 模仿人类
   不使用人类数据的 AlphaGo Zero 更强
   → 启发了后来的 AI 系统

3. 搜索 + 学习 = 超越纯搜索或纯学习
   MCTS + 神经网络 > 单独使用任何一方

4. 通用性
   AlphaZero 证明了同一算法可以掌握多种游戏

对社会的冲击

AlphaGo 的影响远远超出了围棋界。2016 年之后,全球 AI 投资急剧升温。各国政府开始将 AI 列为国家战略。公众第一次真切地感受到:AI 不是一个遥远的科幻概念,它已经来了。


本节小结

概念要点
围棋难度10¹⁷⁰ 种状态,传统搜索方法无法处理
核心人物Demis Hassabis(DeepMind 创始人),李世石(十八冠王)
策略网络预测下一步走哪,从人类棋谱和自我对弈中学习
价值网络评估局面胜率
MCTS结合两个网络进行高效搜索
第 37 手AlphaGo 展现超越人类的创造力
第 78 手李世石的「神之一手」,证明人类仍有价值
AlphaGo Zero完全不用人类数据,从零自学,更强
AlphaZero同一算法通吃围棋、象棋、将棋

思考题

  1. AlphaGo Zero 不使用人类棋谱却更强,这说明什么?人类经验在什么情况下反而是限制?
  2. 搜索(MCTS)和学习(神经网络)的配合为什么比单独使用更强?这个思想能否应用到其他领域?
  3. AlphaGo 的成功让人们意识到 AI 可能比预想更快到来。这对 2016 年之后的 AI 投资热潮有什么影响?

延伸阅读

  • Silver et al., Mastering the game of Go with deep neural networks and tree search, Nature, 2016
  • Silver et al., Mastering the game of Go without human knowledge (AlphaGo Zero), Nature, 2017