引言
2016 年 3 月 9 日,韩国首尔四季酒店。一个历史上被预测"还要再等十年"的事件,正在发生。
围棋世界冠军李世石坐在棋盘前。他的对手不是一个人,而是一个程序——Google DeepMind 的 AlphaGo。全球 2 亿人通过直播观看这场比赛。
围棋被称为人类智力的最后堡垒。它的状态空间比可观测宇宙中的原子数还多——约 10¹⁷⁰ 种可能。专家们曾一致认为,至少要到 2025 年,AI 才能在围棋上击败人类顶尖棋手。
但当第一局结束,李世石中盘认输时,所有人的时间表都被撕碎了。
为什么围棋这么难?
复杂度对比
| 游戏 | 状态空间 | 何时被 AI 攻克 |
|---|---|---|
| 井字棋 | ~10³ | 简单程序即可 |
| 国际象棋 | ~10⁴⁷ | 1997 年(Deep Blue) |
| 围棋 | ~10¹⁷⁰ | 2016 年(AlphaGo) |
为什么传统方法不行?
国际象棋的策略:
Minimax 搜索 + Alpha-Beta 剪枝 + 评估函数
→ 搜索深度有限,但评估函数可以较好地估计局面
围棋的困难:
├── 棋盘 19×19,每步有 ~250 个合法位置
├── 一局平均 ~150 手 → 250^150 种可能
├── 无法穷举搜索
├── 局面评估极其困难(不像象棋有明确的子力价值)
└── 直觉和「棋感」很重要(人类专家难以用语言解释)人类围棋高手常常无法解释为什么某一步是"好棋"——它依赖于经年累月磨炼出的直觉。这种直觉,恰恰是传统 AI 最不具备的东西。
AlphaGo 背后的人
Demis Hassabis 的经历本身就是一部传奇。13 岁达到国际象棋大师水平,17 岁参与设计经典游戏《Theme Park》,随后在伦敦大学学院获得神经科学博士学位,2010 年创立 DeepMind。他的目标是:先用游戏证明 AI 的能力,然后解决真正重要的问题。
围棋,就是他选中的终极考场。
AlphaGo 的方法
三大核心组件
AlphaGo = 深度神经网络 + 蒙特卡洛树搜索 + 强化学习
┌─────────────────────────────────────────────┐
│ AlphaGo 系统架构 │
│ │
│ ┌───────────┐ ┌───────────┐ │
│ │ 策略网络 │ │ 价值网络 │ │
│ │ Policy Net │ │ Value Net │ │
│ │ 「下一步走哪」│ │ 「局面谁赢」 │ │
│ └─────┬─────┘ └─────┬─────┘ │
│ │ │ │
│ └──────┬───────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ 蒙特卡洛树搜索 │ │
│ │ (MCTS) │ │
│ │ 结合两个网络的输出 │ │
│ │ 进行高效搜索 │ │
│ └──────────────────┘ │
└─────────────────────────────────────────────┘1. 策略网络(Policy Network)
输入:当前棋盘状态
输出:每个合法位置的概率分布
作用:「专家在这一步可能会走哪里」
训练过程:
第一阶段(监督学习):
用人类高手的 3000 万步棋谱训练
预测人类专家的下一步
→ 准确率 57%
第二阶段(强化学习):
让策略网络自我对弈
用策略梯度优化
→ 超越人类专家水平2. 价值网络(Value Network)
输入:当前棋盘状态
输出:一个 [-1, 1] 的数值
作用:「从当前局面看,谁更有可能赢」
训练:
用策略网络自我对弈生成 3000 万局棋
对每个局面标注最终胜负结果
训练网络预测最终胜率3. 蒙特卡洛树搜索(MCTS)
MCTS 的四个阶段:
1. 选择(Selection)
从根节点开始,根据策略网络选择最有希望的分支
│
▼
2. 扩展(Expansion)
到达未探索的节点时,展开一个新的棋步
│
▼
3. 评估(Evaluation)
用价值网络评估新局面(同时用快速策略模拟到终局)
│
▼
4. 回溯(Backpropagation)
将评估结果沿路径回传,更新沿途节点的统计信息
重复数万次 → 选择访问次数最多的棋步五局大战:两个历史性的瞬间
2016 年 3 月 9 日至 15 日,AlphaGo 与李世石的五局比赛,每一局都跌宕起伏。但其中有两局,注定被写入历史。
第 37 手(第二局)——AI 的"创造力"
第二局第 37 手,AlphaGo 下了一步棋,落子在棋盘的第五线——这在人类围棋理论中被认为是"过早"的。
现场的解说员最初以为这是一个失误。李世石也愣了一下,甚至离开了座位。
但随着棋局的推进,这步棋的深意逐渐显现。它为 AlphaGo 后续的势力范围埋下了伏笔,最终成为决定胜负的关键一手。围棋专家们事后复盘时惊叹:这步棋展现了一种超越人类经验的创造力。 没有人类棋手会这样下。但 AlphaGo 通过自我对弈,发现了一条人类从未走过的路径。
第 78 手(第四局)——人类的反击
前三局 AlphaGo 连胜,所有人都以为比赛会以 5:0 结束。但第四局第 78 手,李世石下出了被称为**「神之一手」**的棋。
AlphaGo vs 李世石 第四局第 78 手:
李世石下出了被称为「神之一手」的一步棋
→ AlphaGo 当时的胜率从 70% 骤降到 10%
→ 李世石赢下了对 AlphaGo 唯一的一局
这一幕成为了人机关系的重要隐喻:
AI 极其强大,但并非不可战胜
人类的创造力和直觉仍然有价值赛后,DeepMind 团队分析了这一手:李世石发现了一个 AlphaGo 的评估盲区——一个极其罕见的局面,AI 的价值网络给出了错误的判断。
这一手证明了:即使在 AI 全面超越人类的时代,人类仍然有能力找到机器的弱点。正如李世石在赛后发布会上说:"这是我人生中最重要的一场胜利。"
AlphaGo 的演进
| 版本 | 时间 | 特点 | 成绩 |
|---|---|---|---|
| AlphaGo Fan | 2015.10 | 首次击败职业棋手樊麾 | 5:0 |
| AlphaGo Lee | 2016.03 | 击败李世石 | 4:1 |
| AlphaGo Master | 2016.12 | 在线 60 连胜人类顶尖高手 | 60:0 |
| AlphaGo Zero | 2017.10 | 完全不使用人类棋谱,从零自我对弈 | 击败 AlphaGo Lee 100:0 |
| AlphaZero | 2017.12 | 通用版,同一算法学会围棋、象棋、将棋 | 全部达到超人类水平 |
AlphaGo Zero 的突破
AlphaGo 的训练流程:
人类棋谱 → 监督学习 → 强化学习 → MCTS
AlphaGo Zero 的训练流程:
随机下棋 → 自我对弈 → MCTS
(完全没有人类知识输入)
关键发现:
Zero 在 3 天后超越了 AlphaGo Lee
在 21 天后超越了 AlphaGo Master
在 40 天后超越了所有之前的版本
Zero 甚至发现了人类从未发现的围棋策略AlphaGo Zero 的成功带来了一个深刻的哲学冲击:不学习人类经验的 AI 反而更强。 人类几千年积累的围棋知识,对 AI 来说不是助力,而可能是一种限制。当 AI 完全从零开始探索时,它发现了一个更广阔的策略空间——一个人类从未触及的世界。
AlphaGo 的启示
对 AI 研究的影响
1. 深度学习 + 强化学习 = 强大组合
DRL(深度强化学习)成为热门研究方向
2. 自我对弈 > 模仿人类
不使用人类数据的 AlphaGo Zero 更强
→ 启发了后来的 AI 系统
3. 搜索 + 学习 = 超越纯搜索或纯学习
MCTS + 神经网络 > 单独使用任何一方
4. 通用性
AlphaZero 证明了同一算法可以掌握多种游戏对社会的冲击
AlphaGo 的影响远远超出了围棋界。2016 年之后,全球 AI 投资急剧升温。各国政府开始将 AI 列为国家战略。公众第一次真切地感受到:AI 不是一个遥远的科幻概念,它已经来了。
本节小结
| 概念 | 要点 |
|---|---|
| 围棋难度 | 10¹⁷⁰ 种状态,传统搜索方法无法处理 |
| 核心人物 | Demis Hassabis(DeepMind 创始人),李世石(十八冠王) |
| 策略网络 | 预测下一步走哪,从人类棋谱和自我对弈中学习 |
| 价值网络 | 评估局面胜率 |
| MCTS | 结合两个网络进行高效搜索 |
| 第 37 手 | AlphaGo 展现超越人类的创造力 |
| 第 78 手 | 李世石的「神之一手」,证明人类仍有价值 |
| AlphaGo Zero | 完全不用人类数据,从零自学,更强 |
| AlphaZero | 同一算法通吃围棋、象棋、将棋 |
思考题
- AlphaGo Zero 不使用人类棋谱却更强,这说明什么?人类经验在什么情况下反而是限制?
- 搜索(MCTS)和学习(神经网络)的配合为什么比单独使用更强?这个思想能否应用到其他领域?
- AlphaGo 的成功让人们意识到 AI 可能比预想更快到来。这对 2016 年之后的 AI 投资热潮有什么影响?
延伸阅读
- Silver et al., Mastering the game of Go with deep neural networks and tree search, Nature, 2016
- Silver et al., Mastering the game of Go without human knowledge (AlphaGo Zero), Nature, 2017