引言
2021 年 1 月 5 日,OpenAI 在博客上展示了令人难以置信的画面:输入"一个牛油果形状的扶手椅",AI 就真的画出了一把牛油果模样的椅子。输入"写着一串STORE字样的路牌,被萝卜竖起来的中国新年舞狮",AI 生成了一张足以以假乱真的图片。这就是 DALL-E——AI 第一次真正学会了「画画」。不到两年后,Stable Diffusion 以开源姿态降临,让任何一台消费级显卡都能运行图像生成模型。一场创意革命,就此爆发。
扩散模型:现代图像生成的核心
核心思想
扩散模型的灵感来自物理学中的扩散过程——加噪再去噪。这个看似反直觉的想法,最终击败了统治图像生成长达八年的 GAN:
正向过程(加噪):
清晰图片 → 逐步添加噪声 → 纯噪声
原图 → 加噪1 → 加噪2 → ... → 纯随机噪声
反向过程(去噪)= 生成过程:
纯噪声 → 逐步去除噪声 → 清晰图片
随机噪声 → 去噪1 → 去噪2 → ... → 生成图片想象把一滴墨水滴入清水:它会逐渐扩散,最终均匀分布。扩散模型做的事情,就是学会逆转这个过程——从均匀的混沌中,一点一点地把图像"还原"出来。
为什么扩散模型比 GAN 更好?
| 维度 | GAN | 扩散模型 |
|---|---|---|
| 训练稳定性 | 难(模式崩溃) | 稳定 |
| 生成多样性 | 容易模式崩溃 | 多样性好 |
| 控制精度 | 较难精确控制 | 更容易引导 |
| 生成质量 | 高 | 高 |
| 训练速度 | 较快 | 较慢(多步去噪) |
GAN 自 2014 年以来一直是图像生成的主流方法,但它有一个致命弱点——模式崩溃(Mode Collapse)。生成器可能发现只生成某几种图像就能骗过判别器,于是"偷懒"只输出那些安全的结果。扩散模型从根本上避免了这个问题:它不需要对抗训练,每一步去噪都朝着更清晰的方向前进,训练过程稳定可预测。
数学原理(简化)
正向过程:
x₀ → x₁ → x₂ → ... → x_T
每一步加少量高斯噪声:xₜ = √(αₜ) × xₜ₋₁ + √(1-αₜ) × ε
反向过程:
训练一个神经网络 ε_θ 预测每一步添加的噪声
xₜ₋₁ = 去噪(xₜ, t) ← 神经网络学习这个映射
生成:
1. 采样随机噪声 x_T ~ N(0, I)
2. 反复去噪:x_T → x_{T-1} → ... → x₀
3. 得到生成图片DALL-E(2021.1)
OpenAI 的开创性工作
DALL-E = 文本编码器 + 图像生成器
输入:文本描述 "一个牛油果形状的扶手椅"
输出:对应的图像
创新:
├── 首次将文本和图像生成统一
├── 展示了令人惊讶的创意组合能力
└── 证明了大规模 Transformer 可以做图像生成
技术:dVAE(离散变分自编码器)+ TransformerDALL-E 发布时,AI 研究界为之沸腾。人们第一次可以用自然语言精确地控制图像生成——这在过去是不可想象的。但 DALL-E 也有明显局限:图像分辨率低、细节模糊、经常"理解错误"用户的意图。OpenAI 知道,这只是开始。
Stable Diffusion(2022.8)
开源革命:AI 图像生成属于每一个人
2022 年 8 月,Stability AI 将 Stable Diffusion 的代码和模型权重完全公开。这个决定的冲击力不亚于 Linux 的开源——任何人都可以在自己的电脑上运行一个强大的图像生成模型,不需要付费 API,不需要云计算,一张消费级显卡就够了。创始人 Emad Mostaque 的愿景很明确:AI 不应该只掌握在少数公司手中。
然而,开源的道路并非一帆风顺。Stability AI 面临版权诉讼、资金困难和内部管理争议。2024 年 3 月,Mostaque 辞去 CEO 职务,留下了一个已经被彻底改变的行业格局——不管 Stability AI 的命运如何,开源 AI 的潮流已经不可逆转。
核心创新:在潜空间中扩散
传统扩散模型:直接在像素空间操作
图像 512×512×3 = 786,432 维 → 计算量巨大
Stable Diffusion:在潜空间操作
图像 → 编码器 → 潜空间 64×64×4 = 16,384 维 → 高效
在潜空间中做扩散 → 解码器 → 图像
效率提升约 48 倍!
→ 普通消费级 GPU 也能运行这个"潜空间"的巧思是 Stable Diffusion 最关键的技术贡献。它不直接在像素层面做扩散(786,432 维的运算量令人望而生畏),而是先用自编码器将图像压缩到一个低维"潜空间"(仅 16,384 维),在那里完成扩散过程后再解码回像素。效率提升近 48 倍——这就是普通 GPU 也能跑起来的秘密。
Stable Diffusion 的架构
文本输入 → CLIP 文本编码器 → 文本嵌入
│
▼
随机噪声 → U-Net 去噪网络(条件:文本嵌入)→ 去噪后的潜表示
│
▼
VAE 解码器
│
▼
生成图像为什么 Stable Diffusion 影响巨大?
| 因素 | 说明 |
|---|---|
| 开源 | 代码和模型权重完全公开 |
| 可本地运行 | 普通 GPU 即可 |
| 可定制 | LoRA、ControlNet 等微调方法 |
| 社区驱动 | Civitai 等平台共享模型和提示词 |
| 免费 | 无需付费 API |
Stable Diffusion 的变体与增强
| 工具/方法 | 功能 |
|---|---|
| LoRA | 用少量图片微调风格 |
| ControlNet | 精确控制姿态、边缘、深度等 |
| Inpainting | 局部修改图像 |
| img2img | 基于参考图生成 |
| IP-Adapter | 用参考图片控制风格 |
Midjourney
艺术化的图像生成
Midjourney 的特点:
├── 不开源,通过 Discord 使用
├── 生成质量极高,尤其是艺术风格
├── 默认风格倾向「美感」
└── 操作简单,对非技术用户友好
2022-2023 年的 AI 艺术热潮很大程度上由 Midjourney 推动2022 年夏天,一幅名为《太空歌剧院》的 AI 画作在美国科罗拉多州博览会美术比赛中获得一等奖,引发艺术界轩然大波。这幅画正是用 Midjourney 生成的。创作者 Jason Allen 透露,他花了数周时间调整提示词并筛选了数百张生成结果才得到最终作品——但获奖的事实仍然让许多艺术家感到愤怒和不安。
图像生成的影响
正面影响
| 领域 | 应用 |
|---|---|
| 设计 | 快速原型、概念设计 |
| 广告 | 营销素材生成 |
| 游戏 | 资产生成、概念艺术 |
| 教育 | 可视化教学内容 |
| 个人创作 | 降低创作门槛 |
争议与挑战
| 问题 | 说明 |
|---|---|
| 版权争议 | 训练数据包含版权作品,生成作品的版权归属不明 |
| 深度伪造 | 生成虚假人物照片 |
| 就业冲击 | 插画师、设计师等职业受影响 |
| 偏见 | 生成内容可能反映训练数据中的偏见 |
| 审查 | 生成不适当内容的风险 |
版权争议是这场革命中最棘手的问题。Stability AI 和 Midjourney 都面临来自艺术家和图片社的集体诉讼:用数百万张版权图片训练模型,是否构成侵权?AI 生成的图像,版权又该归谁?截至 2024 年底,这些案件仍在审理中,但它们的判决将深刻影响整个 AI 创意产业的未来。
本节小结
| 概念 | 要点 |
|---|---|
| 扩散模型 | 加噪再去噪,比 GAN 更稳定、更多样 |
| DALL-E | 首次文本到图像生成,开创 AI 绘画时代 |
| Stable Diffusion | 潜空间扩散,开源,可本地运行 |
| Midjourney | 艺术化生成,高质量,引发艺术界争议 |
| 影响 | 创意产业变革 + 版权和伦理争议 |
思考题
- 扩散模型为什么比 GAN 更适合可控生成?从训练稳定性和条件注入角度分析。
- AI 生成图像的版权应该归谁?训练数据的使用是否侵犯了原作者的权益?
- AI 图像生成会如何改变创意产业?是工具增强还是职业替代?