Skip to content

引言

人类感知世界的方式从来不是割裂的——我们同时用眼睛看、用耳朵听、用语言思考,然后综合所有信息做出判断。2023 年 9 月,当 OpenAI 展示 GPT-4V 的能力时,人们第一次看到了一个能"看见"世界并"理解"它所看到的 AI。给它一张冰箱里食材的照片,它能建议一道菜谱;给它一张数学题的图片,它能一步步写出解答;给它一张搞笑漫画,它甚至能解释笑点在哪里。多模态——同时处理文字、图像、声音甚至视频——被认为是通向真正通用人工智能的关键一步。

2021.1DALL-E 发布,文本到图像的跨模态生成
2021CLIP 发布,学习视觉-语言对齐的基础模型
2023.3GPT-4 发布,技术报告中暗示多模态能力
2023.9GPT-4V 正式向公众开放,AI 首次「看见」世界
2023.12Google 发布 Gemini,原生多模态架构
2024.5GPT-4o 发布,实时语音+视觉交互
2024.12Google 发布 Gemini 2.0,原生多模态输出

什么是多模态?

单模态:
  文本模型:只处理文字(GPT-3)
  视觉模型:只处理图片(ResNet)
  语音模型:只处理音频(Whisper)

多模态:
  同时处理文字 + 图片 + 音频 + 视频
  理解不同模态之间的关系
  跨模态推理和生成

人类的类比

人类天然是多模态的:
  👀 看到一张图
  📖 读到一段文字
  🗣️ 听到一段话
  🧠 综合理解,做出判断

多模态 AI 追求的正是这种综合理解能力

想象你是一名医生。诊断病情时,你不会只看化验单上的数字(文本),你还会看 X 光片(图像),听病人描述症状(语音),观察他的面色和姿态(视频)。所有这些信息被你的大脑综合在一起,形成判断。这就是多模态理解的本质——不是简单地把不同信息拼在一起,而是理解它们之间的深层关联。

关键技术

视觉编码器

将图像转换为与文本嵌入相同维度的向量:

图像 → 视觉编码器(如 ViT)→ 图像嵌入
文本 → 文本编码器(如 CLIP)→ 文本嵌入

两种嵌入在同一个向量空间中对齐
→ 可以计算图文相似度、进行跨模态推理

CLIP(2021,OpenAI)

Contrastive Language-Image Pre-training

训练数据:4 亿对「图片-文字描述」

训练目标:
  同一对的图文嵌入应该接近(高相似度)
  不同对的图文嵌入应该远离(低相似度)

      [猫的图片] ←→ "一只橘猫"     ✓ 相似(正样本)
      [猫的图片] ←→ "一辆汽车"     ✗ 不相似(负样本)

CLIP 的意义:

  • 学会了通用的视觉-语言对齐
  • 可以做 Zero-shot 图像分类
  • 成为后续多模态模型的基础组件

CLIP 看似简单——把图片和文字映射到同一个空间——但这个想法的影响是深远的。它为所有后续的多模态模型奠定了基础:DALL-E 用 CLIP 的文本来引导图像生成,GPT-4V 用类似的视觉编码器来"看懂"图片,LLaVA 直接把 CLIP 的视觉特征喂给语言模型。可以说,CLIP 是整个多模态 AI 大厦的地基。

多模态融合策略

策略 1:早期融合(Early Fusion)
  图像 token + 文本 token 拼接后一起输入 Transformer
  GPT-4V 使用这种方式

策略 2:交叉注意力(Cross-Attention)
  文本通过注意力关注图像特征
  LLaVA 等模型使用这种方式

策略 3:适配器(Adapter)
  冻结语言模型,训练一个视觉-语言适配器
  高效且不需要大量训练

代表模型

GPT-4V / GPT-4o(2023-2024)

GPT-4V 的能力:
  ├── 图片理解:描述图片内容、回答关于图片的问题
  ├── 图片推理:读图表、解数学题、分析截图
  ├── 图片+文本:图文结合的复杂推理
  └── 多图比较:对比多张图片

GPT-4o(2024)的增强:
  ├── 实时语音对话
  ├── 实时视觉理解(视频流)
  ├── 统一模型处理所有模态
  └── 更快的响应速度

GPT-4V 发布时最令人震撼的演示之一,是一张手绘的网站线框图。用户用手机拍下自己在纸上随手画的网页布局,发给 GPT-4V,它竟然能将其转化为完整的 HTML/CSS 代码。这不仅仅是一个酷炫的 demo——它标志着 AI 真正跨越了视觉理解和代码生成之间的界限。

Gemini(2023,Google)

Gemini 的特点:
  ├── 原生多模态(从设计之初就整合多模态)
  ├── 三个版本:Ultra、Pro、Nano
  ├── 与 Google 生态深度整合(搜索、云、Pixel)
  └── 长上下文(支持大量图片和视频)

Google 与 OpenAI 的多模态竞赛成为 2023-2024 年最引人注目的技术竞争之一。Gemini 的策略是"原生多模态"——不是把视觉和语言两个模型拼在一起,而是从一开始就在一个统一架构中同时训练所有模态。GPT-4V 则采用了更务实的路线:先用强大的语言模型,再把视觉能力"嫁接"上去。两种路线各有优劣,至今难分胜负。

LLaVA(2023,开源)

Large Language and Vision Assistant

创新点:
  ├── 用 GPT-4 生成图文对话训练数据
  ├── 简单的架构:CLIP 视觉编码器 + LLaMA 语言模型
  ├── 完全开源
  └── 性能接近 GPT-4V 在部分任务上的表现

多模态的应用场景

场景输入输出示例
图片问答图片+问题文字回答"这张图里有什么?"
文档理解文档截图分析结果读表、读图表
代码辅助截图代码从设计稿生成代码
教育辅导题目图片解答拍照解题
医学影像医学图片诊断建议X 光分析(辅助)
视频理解视频摘要/分析视频内容总结
自动驾驶多传感器决策综合感知环境

多模态的挑战

技术挑战

1. 模态对齐
   文本「苹果」和图像「🍎」如何在向量空间中对齐?

2. 信息不平衡
   图像包含的信息量远大于简短文字描述
   如何平衡不同模态的贡献?

3. 幻觉
   模型可能「看到」图片中不存在的东西
   或者编造关于图片的错误描述

4. 计算成本
   处理图像需要比文本更多的计算资源

数据挑战

高质量的多模态数据稀缺:
  ├── 需要精确的图文配对
  ├── 视频数据标注成本极高
  ├── 音频-文本配对数据不足
  └── 隐私和安全限制

多模态幻觉是一个尤其棘手的问题。研究发现,GPT-4V 有时会"自信地描述"图片中根本不存在的物体或细节——比如声称一张空房间的照片里"有一只猫在窗台上"。这种幻觉比纯文本模型中的幻觉更难检测,因为用户往往不会逐像素地验证 AI 的描述。如何在多模态场景中保证事实准确性,是当前最活跃的研究方向之一。


本节小结

概念要点
多模态同时处理文本、图像、音频、视频
CLIP视觉-语言对齐的基础模型,多模态大厦的地基
融合策略早期融合、交叉注意力、适配器
代表模型GPT-4V(嫁接路线)、Gemini(原生路线)、LLaVA(开源)
挑战模态对齐、多模态幻觉、计算成本、数据稀缺

思考题

  1. 多模态能力是通向 AGI 的必经之路吗?还是单模态足够强也能实现?
  2. 多模态 AI 的幻觉问题比纯文本模型更严重还是更轻?为什么?
  3. 原生多模态(从头训练)vs 拼接式多模态(组合已有模型),哪种路线更有前景?