AI Agent 概论 | AI 知识课程

引言

2024 年 3 月，一家名为 Cognition 的初创公司发布了一段演示视频：一个叫 Devin 的 AI 系统自主浏览网页、阅读文档、编写代码、修复 Bug——完全不需要人类干预。它被称为「世界上第一位 AI 软件工程师」。投资者疯狂涌入，公司估值迅速冲上 20 亿美元。然而不到一年，现实就给了所有人一记响亮的耳光。

这是 AI Agent 的缩影——从最狂热的期待，到最清醒的现实。2024 年被称为 「AI Agent 元年」，但这一年的故事远比简单的技术进步复杂得多。

从聊天机器人到 Agent

聊天机器人（Chatbot）：
  用户提问 → AI 回答
  被动、单轮、只能处理文本

Copilot：
  用户提问 → AI 建议 → 用户执行
  半主动、辅助人类工作

Agent：
  用户给出目标 → AI 自主规划 → 执行步骤 → 反馈结果
  主动、多步、可以调用工具

类比：
  Chatbot = 图书馆参考咨询员（只回答问题）
  Copilot = 助手（建议但需要你确认）
  Agent = 实习生（自主完成任务，汇报结果）

2022.11ChatGPT 发布，AI 聊天机器人时代开启

2023GitHub Copilot 等工具普及，AI 进入「副驾驶」阶段

2024.3Devin AI 发布，号称「第一位 AI 软件工程师」，估值 $2B

2024各科技巨头纷纷发布 Agent 框架，2024 年被称为「Agent 元年」

2025AI Agent 逐步落地，在编程、客服、数据分析等领域发挥作用

Devin 的故事：从神话到现实

DA2024-

Devin AI

Cognition Labs 开发的 AI 软件工程师

"第一位 AI 软件工程师——但现实比宣传复杂得多。"

Devin 的发布堪称 AI 营销史上的经典案例。演示视频中，Devin 优雅地解决了 Upwork 上的真实编程任务，媒体争相报道，称之为「2024 年最大 AI 新闻」。但随后，独立的 AI 研究者开始逐一复现 Devin 演示中的任务，结果发现：Devin 的实际表现远不如视频中展示的那样流畅。它需要大量人工干预，经常在简单任务上卡住，真正能自主完成的任务非常有限。

这个故事揭示了一个重要教训：在 AI 领域，精心剪辑的演示视频和真实的系统能力之间，往往存在巨大的鸿沟。但 Devin 的发布也并非毫无意义——它点燃了整个行业对 AI Agent 的想象力，推动了大量真实的进展。

Agent 的核心框架

感知-规划-行动循环

┌──────────────────────────────────────┐
│              Agent 循环               │
│                                      │
│  ┌─────────┐                        │
│  │  感知    │ ← 接收输入、环境状态     │
│  │ Perceive │                        │
│  └────┬────┘                        │
│       │                             │
│       ▼                             │
│  ┌─────────┐                        │
│  │  规划    │ ← 分解任务、选择策略     │
│  │  Plan   │                        │
│  └────┬────┘                        │
│       │                             │
│       ▼                             │
│  ┌─────────┐                        │
│  │  行动    │ ← 调用工具、执行操作     │
│  │  Act    │                        │
│  └────┬────┘                        │
│       │                             │
│       ▼                             │
│  ┌─────────┐                        │
│  │  观察    │ ← 检查结果、更新状态     │
│  │ Observe │                        │
│  └────┬────┘                        │
│       │                             │
│       └──────→ 继续循环或结束         │
└──────────────────────────────────────┘

Agent 的核心组件

组件	功能	技术
LLM 大脑	理解指令、规划、决策	GPT-4、Claude 等
记忆系统	存储对话历史、中间结果	短期记忆 + 长期记忆
工具调用	与外部世界交互	API、Function Calling
规划能力	分解复杂任务	ReAct、Tree of Thoughts

记忆系统

短期记忆 vs 长期记忆

短期记忆（Working Memory）：
  当前对话的上下文
  存储在 LLM 的上下文窗口中
  容量有限（受 token 限制）

  例：Agent 在执行任务过程中记住前几步做了什么

长期记忆（Long-term Memory）：
  跨会话持久存储的信息
  通常使用向量数据库
  可以检索相关记忆

  例：Agent 记住用户的偏好、之前的交互历史

记忆检索

长期记忆的使用流程：

  存入：用户信息 → Embedding → 向量数据库
  检索：当前问题 → Embedding → 相似度搜索 → 相关记忆
  使用：将检索到的记忆注入 LLM 上下文

  类比：
    短期记忆 = 你的注意力（当下在想什么）
    长期记忆 = 你的笔记本（随时可以翻阅）

Agent 的规划策略

ReAct（Reasoning + Acting）

交替进行推理和行动：

  Question: 2010 年世界杯冠军的国家首都的人口是多少？

  Thought 1: 我需要先找出 2010 年世界杯冠军
  Action 1: Search("2010 FIFA World Cup winner")
  Observation 1: 西班牙

  Thought 2: 现在我需要找西班牙的首都
  Action 2: Search("capital of Spain")
  Observation 2: 马德里

  Thought 3: 现在我需要找马德里的人口
  Action 3: Search("population of Madrid")
  Observation 3: 约 330 万

  Thought 4: 我现在知道答案了
  Answer: 马德里，人口约 330 万

Tree of Thoughts（思维树）

当问题有多个可能的解决路径时：

          问题
        /  |  \
      路径1 路径2 路径3  ← 展开多种可能
      / \    |
    ...  ... ...        ← 继续探索
      │
    评估每条路径的可行性
    选择最有希望的继续深入

Agent 的应用

类型	描述	示例
编程 Agent	自主编写、测试、调试代码	Devin、Claude Code
研究助手	搜索文献、总结发现	Perplexity
客服 Agent	处理客户查询和投诉	各类智能客服
数据分析	自动分析数据并生成报告	代码解释器
个人助理	日程管理、邮件处理	各类 AI 助手

Agent 的挑战

当前的主要挑战：

1. 可靠性
   Agent 在复杂任务中容易出错或偏离目标
   多步执行中错误会累积

2. 成本
   每一步都需要调用 LLM → Token 消耗大
   复杂任务可能需要数十次 LLM 调用

3. 安全性
   Agent 可以自主行动 → 潜在风险更大
   需要人工审核和护栏

4. 评估
   如何衡量 Agent 的表现？
   不同任务需要不同的评估标准

本节小结

概念	要点
Agent	能自主感知、规划、行动的 AI 系统
感知-规划-行动	Agent 的核心循环
记忆系统	短期（上下文窗口）+ 长期（向量数据库）
规划策略	ReAct（推理+行动交替）、思维树
挑战	可靠性、成本、安全性、评估

思考题

Devin 的故事告诉我们，AI 演示和真实能力之间可能存在巨大差距。你如何判断一个 AI 产品的宣传是否可信？
Agent 和传统软件自动化（如 RPA）的本质区别是什么？
如何设计一个安全的 Agent？它应该有哪些限制和护栏？

引言 ​

从聊天机器人到 Agent ​

Devin 的故事：从神话到现实 ​

Agent 的核心框架 ​

感知-规划-行动循环 ​

Agent 的核心组件 ​

记忆系统 ​

短期记忆 vs 长期记忆 ​

记忆检索 ​

Agent 的规划策略 ​

ReAct（Reasoning + Acting） ​

Tree of Thoughts（思维树） ​

Agent 的应用 ​

Agent 的挑战 ​

本节小结 ​

思考题 ​

引言