开源大模型生态 | AI 知识课程

引言

2023 年 3 月 3 日，一个匿名用户在 4chan 上发布了一个磁力链接。文件大小 40GB，包含的是 Meta 刚刚发布给学术研究者的 LLaMA 模型权重。Meta 原本严格限制访问权限，只批准了少数研究者。但现在，任何人都可以下载这个当时最强大的开源语言模型。《纽约时报》后来用一句话形容这次泄露：Meta 把自己的「皇冠宝石」送给了全世界。

这被称为 「The LLaMA Effect」——它点燃了开源大模型革命的导火索。

开源 vs 闭源

对比

维度	闭源模型	开源模型
代表	GPT-4、Claude、Gemini	LLaMA、Qwen、DeepSeek
权重开放	否	是
可定制	有限	完全自由
数据隐私	数据发送到服务商	可本地运行
成本	按 token 付费	免费（但需要 GPU）
性能	通常更强	快速追赶
生态	统一	多样化

为什么要开源？

Meta 的 LLaMA 策略：
  开源模型 → 社区改进 → 生态繁荣 → Meta 受益

好处：
  ├── 加速研究（学术界可以自由实验）
  ├── 促进竞争（防止垄断）
  ├── 定制化（企业可以针对自己的场景优化）
  ├── 安全审计（独立研究者可以发现安全问题）
  └── 降低成本（减少对 API 的依赖）

MZ1984-

Mark Zuckerberg

Meta CEO，开源大模型的战略推手

"开源是推动 AI 发展的最佳策略，它让创新不再局限于少数几家大公司。"

Meta 的开源策略并非纯粹利他。Zuckerberg 清楚地知道：Meta 在 AI 基础模型上无法与 OpenAI 和 Google 正面竞争。但如果开源生态繁荣起来，Meta 就能通过生态优势获得回报——开发者用 LLaMA 构建的应用越多，Meta 的 AI 影响力就越大。

The LLaMA Effect：开源革命的时间线

2023.2Meta 发布 LLaMA 1，仅限学术研究者使用

2023.3LLaMA 权重泄露到 4chan，The LLaMA Effect 开始

2023.3社区迅速推出 llama.cpp——在普通电脑 CPU 上运行 LLaMA

2023.7Meta 发布 LLaMA 2，商用免费，正式拥抱开源

2023.7Mistral 7B 发布，7B 参数超越 LLaMA 2 13B

2024.4Meta 发布 LLaMA 3，部分基准接近 GPT-4

2024Qwen 2.5 在中文基准测试上领先，开源生态百花齐放

2025.1DeepSeek R1 开源推理模型，中国开源达到世界领先

主要开源模型

LLaMA 系列（Meta）

LLaMA 1 (2023.2)
  ├── 参数：7B ~ 65B
  ├── 只开放给研究者 → 很快泄露到网上
  └── 意义：证明了开源模型可以接近 GPT-3 水平

LLaMA 2 (2023.7)
  ├── 参数：7B, 13B, 70B
  ├── 商用许可（免费）
  └── 训练数据更多，性能大幅提升

LLaMA 3 (2024.4)
  ├── 参数：8B, 70B
  ├── 支持 128K 上下文
  └── 开源模型首次在部分基准上接近 GPT-4

LLaMA 4 (2025)
  ├── MoE 架构
  └── 多模态能力

Qwen 系列（阿里巴巴）

特点：
  ├── 中文能力极强
  ├── 多种尺寸：0.5B 到 72B
  ├── 多模态版本
  ├── 数学/代码专项版本
  └── Apache 2.0 许可

Qwen 2.5 (2024) 在多项中文基准测试上领先

DeepSeek 系列

DeepSeek-V2 (2024)
  ├── MoE 架构，高效率
  └── 性能接近 GPT-4 级别

DeepSeek-R1 (2025)
  ├── 开源推理模型
  ├── 纯 RL 训练涌现推理能力
  └── 蒸馏到小模型也保持强推理能力

意义：中国开源模型首次在推理能力上达到世界领先水平

Mistral 系列（法国）

AM1992-

Arthur Mensch

Mistral AI CEO，前 Google DeepMind 研究员

"我们相信高效的模型胜过庞大的模型。"

Mistral 7B (2023)
  ├── 参数效率极高
  ├── 7B 参数超过 LLaMA 2 13B
  └── 滑动窗口注意力

Mixtral 8×7B (2024)
  ├── MoE 架构
  └── 性能接近 GPT-3.5

意义：欧洲 AI 公司在全球舞台上的重要存在

模型量化与高效部署

量化（Quantization）——在笔记本上运行大模型

LLaMA 泄露后，开发者 Georgi Gerganov 用 C 语言重写了推理代码，创造了 llama.cpp。这个项目让 LLaMA 可以在普通的 MacBook 上运行——不需要昂贵的 GPU，不需要云端 API。量化技术让这一切成为可能。

将模型参数从高精度格式压缩到低精度：

  FP16（16位浮点）→ INT8（8位整数）→ INT4（4位整数）

  原始模型（FP16）：14GB 显存
  INT8 量化：约 7GB 显存
  INT4 量化：约 4GB 显存

  精度损失通常很小（1-3%）

常见量化方法

方法	说明	精度损失
GGUF	llama.cpp 格式，CPU/GPU 混合推理	小
GPTQ	训练后量化，GPU 推理	小
AWQ	激活感知量化	很小
Bitsandbytes	NF4 量化，训练和推理都可用	小

KV Cache 优化

推理时的主要瓶颈：KV Cache（存储注意力计算中的 Key 和 Value）

优化方法：
  ├── KV Cache 量化：减少缓存显存占用
  ├── PagedAttention：像虚拟内存一样管理 KV Cache
  ├── GQA（分组查询注意力）：减少 KV 头数
  └── MQA（多查询注意力）：所有头共享一组 KV

推理框架

框架	特点
vLLM	高吞吐量，PagedAttention
llama.cpp	CPU 友好，跨平台
Ollama	易用，本地部署
TensorRT-LLM	NVIDIA GPU 优化
SGLang	快速推理，结构化输出

微调与定制

LoRA：让每个人都能微调大模型

EH1995-

Edward Hu

LoRA 论文第一作者，微软研究员

"LoRA 的核心思想是：大模型的权重变化可以用低秩矩阵来近似。"

全量微调：更新模型所有参数 → 需要大量 GPU
LoRA：只训练少量「适配器」参数 → 一张消费级 GPU 即可

原理：
  原始权重矩阵 W（冻结不更新）
  加上一个低秩分解：ΔW = A × B
  A 是 d×r 矩阵，B 是 r×d 矩阵（r << d）
  只训练 A 和 B → 参数量极少

  例：一个 4096×4096 的权重
  全量微调：16M 参数
  LoRA (r=16)：4096×16×2 = 131K 参数（减少 99%）

QLoRA

量化 + LoRA 的组合：
  1. 将模型量化为 4-bit
  2. 在 4-bit 模型上应用 LoRA 微调
  3. 效果接近全量微调，但只需一张消费级 GPU

意义：让个人和小团队也能微调大模型

本节小结

概念	要点
LLaMA Effect	泄露引发开源革命，Meta 战略性拥抱开源
开源模型	LLaMA、Qwen、DeepSeek、Mistral
量化	FP16 → INT8/INT4，在消费级硬件上运行大模型
KV Cache 优化	推理效率的关键
LoRA	低秩适配，用极少参数微调大模型
QLoRA	量化 + LoRA，消费级 GPU 可微调

思考题

LLaMA 的泄露是意外还是 Meta 的默许？开源对 AI 行业的长期影响是正面的还是负面的？
开源模型会不会永远追赶闭源模型？还是有可能反超？
如果每个人都有能力微调和部署自己的 AI 模型，这会带来什么社会影响？

引言 ​

开源 vs 闭源 ​

对比 ​

为什么要开源？ ​

The LLaMA Effect：开源革命的时间线 ​

主要开源模型 ​

LLaMA 系列（Meta） ​

Qwen 系列（阿里巴巴） ​

DeepSeek 系列 ​

Mistral 系列（法国） ​

模型量化与高效部署 ​

量化（Quantization）——在笔记本上运行大模型 ​

常见量化方法 ​

KV Cache 优化 ​

推理框架 ​

微调与定制 ​

LoRA：让每个人都能微调大模型 ​

QLoRA ​

本节小结 ​

思考题 ​

引言