引言
2024 年 3 月,一家名为 Cognition 的初创公司发布了一段演示视频:一个叫 Devin 的 AI 系统自主浏览网页、阅读文档、编写代码、修复 Bug——完全不需要人类干预。它被称为「世界上第一位 AI 软件工程师」。投资者疯狂涌入,公司估值迅速冲上 20 亿美元。然而不到一年,现实就给了所有人一记响亮的耳光。
这是 AI Agent 的缩影——从最狂热的期待,到最清醒的现实。2024 年被称为 「AI Agent 元年」,但这一年的故事远比简单的技术进步复杂得多。
从聊天机器人到 Agent
聊天机器人(Chatbot):
用户提问 → AI 回答
被动、单轮、只能处理文本
Copilot:
用户提问 → AI 建议 → 用户执行
半主动、辅助人类工作
Agent:
用户给出目标 → AI 自主规划 → 执行步骤 → 反馈结果
主动、多步、可以调用工具
类比:
Chatbot = 图书馆参考咨询员(只回答问题)
Copilot = 助手(建议但需要你确认)
Agent = 实习生(自主完成任务,汇报结果)2022.11ChatGPT 发布,AI 聊天机器人时代开启
2023GitHub Copilot 等工具普及,AI 进入「副驾驶」阶段
2024.3Devin AI 发布,号称「第一位 AI 软件工程师」,估值 $2B
2024各科技巨头纷纷发布 Agent 框架,2024 年被称为「Agent 元年」
2025AI Agent 逐步落地,在编程、客服、数据分析等领域发挥作用
Devin 的故事:从神话到现实
DA2024-
Devin AI
Cognition Labs 开发的 AI 软件工程师
"第一位 AI 软件工程师——但现实比宣传复杂得多。"
Devin 的发布堪称 AI 营销史上的经典案例。演示视频中,Devin 优雅地解决了 Upwork 上的真实编程任务,媒体争相报道,称之为「2024 年最大 AI 新闻」。但随后,独立的 AI 研究者开始逐一复现 Devin 演示中的任务,结果发现:Devin 的实际表现远不如视频中展示的那样流畅。它需要大量人工干预,经常在简单任务上卡住,真正能自主完成的任务非常有限。
这个故事揭示了一个重要教训:在 AI 领域,精心剪辑的演示视频和真实的系统能力之间,往往存在巨大的鸿沟。但 Devin 的发布也并非毫无意义——它点燃了整个行业对 AI Agent 的想象力,推动了大量真实的进展。
Agent 的核心框架
感知-规划-行动循环
┌──────────────────────────────────────┐
│ Agent 循环 │
│ │
│ ┌─────────┐ │
│ │ 感知 │ ← 接收输入、环境状态 │
│ │ Perceive │ │
│ └────┬────┘ │
│ │ │
│ ▼ │
│ ┌─────────┐ │
│ │ 规划 │ ← 分解任务、选择策略 │
│ │ Plan │ │
│ └────┬────┘ │
│ │ │
│ ▼ │
│ ┌─────────┐ │
│ │ 行动 │ ← 调用工具、执行操作 │
│ │ Act │ │
│ └────┬────┘ │
│ │ │
│ ▼ │
│ ┌─────────┐ │
│ │ 观察 │ ← 检查结果、更新状态 │
│ │ Observe │ │
│ └────┬────┘ │
│ │ │
│ └──────→ 继续循环或结束 │
└──────────────────────────────────────┘Agent 的核心组件
| 组件 | 功能 | 技术 |
|---|---|---|
| LLM 大脑 | 理解指令、规划、决策 | GPT-4、Claude 等 |
| 记忆系统 | 存储对话历史、中间结果 | 短期记忆 + 长期记忆 |
| 工具调用 | 与外部世界交互 | API、Function Calling |
| 规划能力 | 分解复杂任务 | ReAct、Tree of Thoughts |
记忆系统
短期记忆 vs 长期记忆
短期记忆(Working Memory):
当前对话的上下文
存储在 LLM 的上下文窗口中
容量有限(受 token 限制)
例:Agent 在执行任务过程中记住前几步做了什么
长期记忆(Long-term Memory):
跨会话持久存储的信息
通常使用向量数据库
可以检索相关记忆
例:Agent 记住用户的偏好、之前的交互历史记忆检索
长期记忆的使用流程:
存入:用户信息 → Embedding → 向量数据库
检索:当前问题 → Embedding → 相似度搜索 → 相关记忆
使用:将检索到的记忆注入 LLM 上下文
类比:
短期记忆 = 你的注意力(当下在想什么)
长期记忆 = 你的笔记本(随时可以翻阅)Agent 的规划策略
ReAct(Reasoning + Acting)
交替进行推理和行动:
Question: 2010 年世界杯冠军的国家首都的人口是多少?
Thought 1: 我需要先找出 2010 年世界杯冠军
Action 1: Search("2010 FIFA World Cup winner")
Observation 1: 西班牙
Thought 2: 现在我需要找西班牙的首都
Action 2: Search("capital of Spain")
Observation 2: 马德里
Thought 3: 现在我需要找马德里的人口
Action 3: Search("population of Madrid")
Observation 3: 约 330 万
Thought 4: 我现在知道答案了
Answer: 马德里,人口约 330 万Tree of Thoughts(思维树)
当问题有多个可能的解决路径时:
问题
/ | \
路径1 路径2 路径3 ← 展开多种可能
/ \ |
... ... ... ← 继续探索
│
评估每条路径的可行性
选择最有希望的继续深入Agent 的应用
| 类型 | 描述 | 示例 |
|---|---|---|
| 编程 Agent | 自主编写、测试、调试代码 | Devin、Claude Code |
| 研究助手 | 搜索文献、总结发现 | Perplexity |
| 客服 Agent | 处理客户查询和投诉 | 各类智能客服 |
| 数据分析 | 自动分析数据并生成报告 | 代码解释器 |
| 个人助理 | 日程管理、邮件处理 | 各类 AI 助手 |
Agent 的挑战
当前的主要挑战:
1. 可靠性
Agent 在复杂任务中容易出错或偏离目标
多步执行中错误会累积
2. 成本
每一步都需要调用 LLM → Token 消耗大
复杂任务可能需要数十次 LLM 调用
3. 安全性
Agent 可以自主行动 → 潜在风险更大
需要人工审核和护栏
4. 评估
如何衡量 Agent 的表现?
不同任务需要不同的评估标准本节小结
| 概念 | 要点 |
|---|---|
| Agent | 能自主感知、规划、行动的 AI 系统 |
| 感知-规划-行动 | Agent 的核心循环 |
| 记忆系统 | 短期(上下文窗口)+ 长期(向量数据库) |
| 规划策略 | ReAct(推理+行动交替)、思维树 |
| 挑战 | 可靠性、成本、安全性、评估 |
思考题
- Devin 的故事告诉我们,AI 演示和真实能力之间可能存在巨大差距。你如何判断一个 AI 产品的宣传是否可信?
- Agent 和传统软件自动化(如 RPA)的本质区别是什么?
- 如何设计一个安全的 Agent?它应该有哪些限制和护栏?