多模态大模型 | AI 知识课程

引言

人类感知世界的方式从来不是割裂的——我们同时用眼睛看、用耳朵听、用语言思考，然后综合所有信息做出判断。2023 年 9 月，当 OpenAI 展示 GPT-4V 的能力时，人们第一次看到了一个能"看见"世界并"理解"它所看到的 AI。给它一张冰箱里食材的照片，它能建议一道菜谱；给它一张数学题的图片，它能一步步写出解答；给它一张搞笑漫画，它甚至能解释笑点在哪里。多模态——同时处理文字、图像、声音甚至视频——被认为是通向真正通用人工智能的关键一步。

2021.1DALL-E 发布，文本到图像的跨模态生成

2021CLIP 发布，学习视觉-语言对齐的基础模型

2023.3GPT-4 发布，技术报告中暗示多模态能力

2023.9GPT-4V 正式向公众开放，AI 首次「看见」世界

2023.12Google 发布 Gemini，原生多模态架构

2024.5GPT-4o 发布，实时语音+视觉交互

2024.12Google 发布 Gemini 2.0，原生多模态输出

什么是多模态？

单模态：
  文本模型：只处理文字（GPT-3）
  视觉模型：只处理图片（ResNet）
  语音模型：只处理音频（Whisper）

多模态：
  同时处理文字 + 图片 + 音频 + 视频
  理解不同模态之间的关系
  跨模态推理和生成

人类的类比

人类天然是多模态的：
  👀 看到一张图
  📖 读到一段文字
  🗣️ 听到一段话
  🧠 综合理解，做出判断

多模态 AI 追求的正是这种综合理解能力

想象你是一名医生。诊断病情时，你不会只看化验单上的数字（文本），你还会看 X 光片（图像），听病人描述症状（语音），观察他的面色和姿态（视频）。所有这些信息被你的大脑综合在一起，形成判断。这就是多模态理解的本质——不是简单地把不同信息拼在一起，而是理解它们之间的深层关联。

关键技术

视觉编码器

将图像转换为与文本嵌入相同维度的向量：

图像 → 视觉编码器（如 ViT）→ 图像嵌入
文本 → 文本编码器（如 CLIP）→ 文本嵌入

两种嵌入在同一个向量空间中对齐
→ 可以计算图文相似度、进行跨模态推理

CLIP（2021，OpenAI）

Contrastive Language-Image Pre-training

训练数据：4 亿对「图片-文字描述」

训练目标：
  同一对的图文嵌入应该接近（高相似度）
  不同对的图文嵌入应该远离（低相似度）

      [猫的图片] ←→ "一只橘猫"     ✓ 相似（正样本）
      [猫的图片] ←→ "一辆汽车"     ✗ 不相似（负样本）

CLIP 的意义：

学会了通用的视觉-语言对齐
可以做 Zero-shot 图像分类
成为后续多模态模型的基础组件

CLIP 看似简单——把图片和文字映射到同一个空间——但这个想法的影响是深远的。它为所有后续的多模态模型奠定了基础：DALL-E 用 CLIP 的文本来引导图像生成，GPT-4V 用类似的视觉编码器来"看懂"图片，LLaVA 直接把 CLIP 的视觉特征喂给语言模型。可以说，CLIP 是整个多模态 AI 大厦的地基。

多模态融合策略

策略 1：早期融合（Early Fusion）
  图像 token + 文本 token 拼接后一起输入 Transformer
  GPT-4V 使用这种方式

策略 2：交叉注意力（Cross-Attention）
  文本通过注意力关注图像特征
  LLaVA 等模型使用这种方式

策略 3：适配器（Adapter）
  冻结语言模型，训练一个视觉-语言适配器
  高效且不需要大量训练

代表模型

GPT-4V / GPT-4o（2023-2024）

GPT-4V 的能力：
  ├── 图片理解：描述图片内容、回答关于图片的问题
  ├── 图片推理：读图表、解数学题、分析截图
  ├── 图片+文本：图文结合的复杂推理
  └── 多图比较：对比多张图片

GPT-4o（2024）的增强：
  ├── 实时语音对话
  ├── 实时视觉理解（视频流）
  ├── 统一模型处理所有模态
  └── 更快的响应速度

GPT-4V 发布时最令人震撼的演示之一，是一张手绘的网站线框图。用户用手机拍下自己在纸上随手画的网页布局，发给 GPT-4V，它竟然能将其转化为完整的 HTML/CSS 代码。这不仅仅是一个酷炫的 demo——它标志着 AI 真正跨越了视觉理解和代码生成之间的界限。

Gemini（2023，Google）

Gemini 的特点：
  ├── 原生多模态（从设计之初就整合多模态）
  ├── 三个版本：Ultra、Pro、Nano
  ├── 与 Google 生态深度整合（搜索、云、Pixel）
  └── 长上下文（支持大量图片和视频）

Google 与 OpenAI 的多模态竞赛成为 2023-2024 年最引人注目的技术竞争之一。Gemini 的策略是"原生多模态"——不是把视觉和语言两个模型拼在一起，而是从一开始就在一个统一架构中同时训练所有模态。GPT-4V 则采用了更务实的路线：先用强大的语言模型，再把视觉能力"嫁接"上去。两种路线各有优劣，至今难分胜负。

LLaVA（2023，开源）

Large Language and Vision Assistant

创新点：
  ├── 用 GPT-4 生成图文对话训练数据
  ├── 简单的架构：CLIP 视觉编码器 + LLaMA 语言模型
  ├── 完全开源
  └── 性能接近 GPT-4V 在部分任务上的表现

多模态的应用场景

场景	输入	输出	示例
图片问答	图片+问题	文字回答	"这张图里有什么？"
文档理解	文档截图	分析结果	读表、读图表
代码辅助	截图	代码	从设计稿生成代码
教育辅导	题目图片	解答	拍照解题
医学影像	医学图片	诊断建议	X 光分析（辅助）
视频理解	视频	摘要/分析	视频内容总结
自动驾驶	多传感器	决策	综合感知环境

多模态的挑战

技术挑战

1. 模态对齐
   文本「苹果」和图像「🍎」如何在向量空间中对齐？

2. 信息不平衡
   图像包含的信息量远大于简短文字描述
   如何平衡不同模态的贡献？

3. 幻觉
   模型可能「看到」图片中不存在的东西
   或者编造关于图片的错误描述

4. 计算成本
   处理图像需要比文本更多的计算资源

数据挑战

高质量的多模态数据稀缺：
  ├── 需要精确的图文配对
  ├── 视频数据标注成本极高
  ├── 音频-文本配对数据不足
  └── 隐私和安全限制

多模态幻觉是一个尤其棘手的问题。研究发现，GPT-4V 有时会"自信地描述"图片中根本不存在的物体或细节——比如声称一张空房间的照片里"有一只猫在窗台上"。这种幻觉比纯文本模型中的幻觉更难检测，因为用户往往不会逐像素地验证 AI 的描述。如何在多模态场景中保证事实准确性，是当前最活跃的研究方向之一。

本节小结

概念	要点
多模态	同时处理文本、图像、音频、视频
CLIP	视觉-语言对齐的基础模型，多模态大厦的地基
融合策略	早期融合、交叉注意力、适配器
代表模型	GPT-4V（嫁接路线）、Gemini（原生路线）、LLaVA（开源）
挑战	模态对齐、多模态幻觉、计算成本、数据稀缺

思考题

多模态能力是通向 AGI 的必经之路吗？还是单模态足够强也能实现？
多模态 AI 的幻觉问题比纯文本模型更严重还是更轻？为什么？
原生多模态（从头训练）vs 拼接式多模态（组合已有模型），哪种路线更有前景？

引言 ​

什么是多模态？ ​

人类的类比 ​

关键技术 ​

视觉编码器 ​

CLIP（2021，OpenAI） ​

多模态融合策略 ​

代表模型 ​

GPT-4V / GPT-4o（2023-2024） ​

Gemini（2023，Google） ​

LLaVA（2023，开源） ​

多模态的应用场景 ​

多模态的挑战 ​

技术挑战 ​

数据挑战 ​

本节小结 ​

思考题 ​

引言