引言
人类感知世界的方式从来不是割裂的——我们同时用眼睛看、用耳朵听、用语言思考,然后综合所有信息做出判断。2023 年 9 月,当 OpenAI 展示 GPT-4V 的能力时,人们第一次看到了一个能"看见"世界并"理解"它所看到的 AI。给它一张冰箱里食材的照片,它能建议一道菜谱;给它一张数学题的图片,它能一步步写出解答;给它一张搞笑漫画,它甚至能解释笑点在哪里。多模态——同时处理文字、图像、声音甚至视频——被认为是通向真正通用人工智能的关键一步。
什么是多模态?
单模态:
文本模型:只处理文字(GPT-3)
视觉模型:只处理图片(ResNet)
语音模型:只处理音频(Whisper)
多模态:
同时处理文字 + 图片 + 音频 + 视频
理解不同模态之间的关系
跨模态推理和生成人类的类比
人类天然是多模态的:
👀 看到一张图
📖 读到一段文字
🗣️ 听到一段话
🧠 综合理解,做出判断
多模态 AI 追求的正是这种综合理解能力想象你是一名医生。诊断病情时,你不会只看化验单上的数字(文本),你还会看 X 光片(图像),听病人描述症状(语音),观察他的面色和姿态(视频)。所有这些信息被你的大脑综合在一起,形成判断。这就是多模态理解的本质——不是简单地把不同信息拼在一起,而是理解它们之间的深层关联。
关键技术
视觉编码器
将图像转换为与文本嵌入相同维度的向量:
图像 → 视觉编码器(如 ViT)→ 图像嵌入
文本 → 文本编码器(如 CLIP)→ 文本嵌入
两种嵌入在同一个向量空间中对齐
→ 可以计算图文相似度、进行跨模态推理CLIP(2021,OpenAI)
Contrastive Language-Image Pre-training
训练数据:4 亿对「图片-文字描述」
训练目标:
同一对的图文嵌入应该接近(高相似度)
不同对的图文嵌入应该远离(低相似度)
[猫的图片] ←→ "一只橘猫" ✓ 相似(正样本)
[猫的图片] ←→ "一辆汽车" ✗ 不相似(负样本)CLIP 的意义:
- 学会了通用的视觉-语言对齐
- 可以做 Zero-shot 图像分类
- 成为后续多模态模型的基础组件
CLIP 看似简单——把图片和文字映射到同一个空间——但这个想法的影响是深远的。它为所有后续的多模态模型奠定了基础:DALL-E 用 CLIP 的文本来引导图像生成,GPT-4V 用类似的视觉编码器来"看懂"图片,LLaVA 直接把 CLIP 的视觉特征喂给语言模型。可以说,CLIP 是整个多模态 AI 大厦的地基。
多模态融合策略
策略 1:早期融合(Early Fusion)
图像 token + 文本 token 拼接后一起输入 Transformer
GPT-4V 使用这种方式
策略 2:交叉注意力(Cross-Attention)
文本通过注意力关注图像特征
LLaVA 等模型使用这种方式
策略 3:适配器(Adapter)
冻结语言模型,训练一个视觉-语言适配器
高效且不需要大量训练代表模型
GPT-4V / GPT-4o(2023-2024)
GPT-4V 的能力:
├── 图片理解:描述图片内容、回答关于图片的问题
├── 图片推理:读图表、解数学题、分析截图
├── 图片+文本:图文结合的复杂推理
└── 多图比较:对比多张图片
GPT-4o(2024)的增强:
├── 实时语音对话
├── 实时视觉理解(视频流)
├── 统一模型处理所有模态
└── 更快的响应速度GPT-4V 发布时最令人震撼的演示之一,是一张手绘的网站线框图。用户用手机拍下自己在纸上随手画的网页布局,发给 GPT-4V,它竟然能将其转化为完整的 HTML/CSS 代码。这不仅仅是一个酷炫的 demo——它标志着 AI 真正跨越了视觉理解和代码生成之间的界限。
Gemini(2023,Google)
Gemini 的特点:
├── 原生多模态(从设计之初就整合多模态)
├── 三个版本:Ultra、Pro、Nano
├── 与 Google 生态深度整合(搜索、云、Pixel)
└── 长上下文(支持大量图片和视频)Google 与 OpenAI 的多模态竞赛成为 2023-2024 年最引人注目的技术竞争之一。Gemini 的策略是"原生多模态"——不是把视觉和语言两个模型拼在一起,而是从一开始就在一个统一架构中同时训练所有模态。GPT-4V 则采用了更务实的路线:先用强大的语言模型,再把视觉能力"嫁接"上去。两种路线各有优劣,至今难分胜负。
LLaVA(2023,开源)
Large Language and Vision Assistant
创新点:
├── 用 GPT-4 生成图文对话训练数据
├── 简单的架构:CLIP 视觉编码器 + LLaMA 语言模型
├── 完全开源
└── 性能接近 GPT-4V 在部分任务上的表现多模态的应用场景
| 场景 | 输入 | 输出 | 示例 |
|---|---|---|---|
| 图片问答 | 图片+问题 | 文字回答 | "这张图里有什么?" |
| 文档理解 | 文档截图 | 分析结果 | 读表、读图表 |
| 代码辅助 | 截图 | 代码 | 从设计稿生成代码 |
| 教育辅导 | 题目图片 | 解答 | 拍照解题 |
| 医学影像 | 医学图片 | 诊断建议 | X 光分析(辅助) |
| 视频理解 | 视频 | 摘要/分析 | 视频内容总结 |
| 自动驾驶 | 多传感器 | 决策 | 综合感知环境 |
多模态的挑战
技术挑战
1. 模态对齐
文本「苹果」和图像「🍎」如何在向量空间中对齐?
2. 信息不平衡
图像包含的信息量远大于简短文字描述
如何平衡不同模态的贡献?
3. 幻觉
模型可能「看到」图片中不存在的东西
或者编造关于图片的错误描述
4. 计算成本
处理图像需要比文本更多的计算资源数据挑战
高质量的多模态数据稀缺:
├── 需要精确的图文配对
├── 视频数据标注成本极高
├── 音频-文本配对数据不足
└── 隐私和安全限制多模态幻觉是一个尤其棘手的问题。研究发现,GPT-4V 有时会"自信地描述"图片中根本不存在的物体或细节——比如声称一张空房间的照片里"有一只猫在窗台上"。这种幻觉比纯文本模型中的幻觉更难检测,因为用户往往不会逐像素地验证 AI 的描述。如何在多模态场景中保证事实准确性,是当前最活跃的研究方向之一。
本节小结
| 概念 | 要点 |
|---|---|
| 多模态 | 同时处理文本、图像、音频、视频 |
| CLIP | 视觉-语言对齐的基础模型,多模态大厦的地基 |
| 融合策略 | 早期融合、交叉注意力、适配器 |
| 代表模型 | GPT-4V(嫁接路线)、Gemini(原生路线)、LLaVA(开源) |
| 挑战 | 模态对齐、多模态幻觉、计算成本、数据稀缺 |
思考题
- 多模态能力是通向 AGI 的必经之路吗?还是单模态足够强也能实现?
- 多模态 AI 的幻觉问题比纯文本模型更严重还是更轻?为什么?
- 原生多模态(从头训练)vs 拼接式多模态(组合已有模型),哪种路线更有前景?