Skip to content

引言

2024 年 3 月,一家名为 Cognition 的初创公司发布了一段演示视频:一个叫 Devin 的 AI 系统自主浏览网页、阅读文档、编写代码、修复 Bug——完全不需要人类干预。它被称为「世界上第一位 AI 软件工程师」。投资者疯狂涌入,公司估值迅速冲上 20 亿美元。然而不到一年,现实就给了所有人一记响亮的耳光。

这是 AI Agent 的缩影——从最狂热的期待,到最清醒的现实。2024 年被称为 「AI Agent 元年」,但这一年的故事远比简单的技术进步复杂得多。


从聊天机器人到 Agent

聊天机器人(Chatbot):
  用户提问 → AI 回答
  被动、单轮、只能处理文本

Copilot:
  用户提问 → AI 建议 → 用户执行
  半主动、辅助人类工作

Agent:
  用户给出目标 → AI 自主规划 → 执行步骤 → 反馈结果
  主动、多步、可以调用工具

类比:
  Chatbot = 图书馆参考咨询员(只回答问题)
  Copilot = 助手(建议但需要你确认)
  Agent = 实习生(自主完成任务,汇报结果)
2022.11ChatGPT 发布,AI 聊天机器人时代开启
2023GitHub Copilot 等工具普及,AI 进入「副驾驶」阶段
2024.3Devin AI 发布,号称「第一位 AI 软件工程师」,估值 $2B
2024各科技巨头纷纷发布 Agent 框架,2024 年被称为「Agent 元年」
2025AI Agent 逐步落地,在编程、客服、数据分析等领域发挥作用

Devin 的故事:从神话到现实

DA2024-
Devin AI
Cognition Labs 开发的 AI 软件工程师
"第一位 AI 软件工程师——但现实比宣传复杂得多。"

Devin 的发布堪称 AI 营销史上的经典案例。演示视频中,Devin 优雅地解决了 Upwork 上的真实编程任务,媒体争相报道,称之为「2024 年最大 AI 新闻」。但随后,独立的 AI 研究者开始逐一复现 Devin 演示中的任务,结果发现:Devin 的实际表现远不如视频中展示的那样流畅。它需要大量人工干预,经常在简单任务上卡住,真正能自主完成的任务非常有限。

这个故事揭示了一个重要教训:在 AI 领域,精心剪辑的演示视频和真实的系统能力之间,往往存在巨大的鸿沟。但 Devin 的发布也并非毫无意义——它点燃了整个行业对 AI Agent 的想象力,推动了大量真实的进展。

Agent 的核心框架

感知-规划-行动循环

┌──────────────────────────────────────┐
│              Agent 循环               │
│                                      │
│  ┌─────────┐                        │
│  │  感知    │ ← 接收输入、环境状态     │
│  │ Perceive │                        │
│  └────┬────┘                        │
│       │                             │
│       ▼                             │
│  ┌─────────┐                        │
│  │  规划    │ ← 分解任务、选择策略     │
│  │  Plan   │                        │
│  └────┬────┘                        │
│       │                             │
│       ▼                             │
│  ┌─────────┐                        │
│  │  行动    │ ← 调用工具、执行操作     │
│  │  Act    │                        │
│  └────┬────┘                        │
│       │                             │
│       ▼                             │
│  ┌─────────┐                        │
│  │  观察    │ ← 检查结果、更新状态     │
│  │ Observe │                        │
│  └────┬────┘                        │
│       │                             │
│       └──────→ 继续循环或结束         │
└──────────────────────────────────────┘

Agent 的核心组件

组件功能技术
LLM 大脑理解指令、规划、决策GPT-4、Claude 等
记忆系统存储对话历史、中间结果短期记忆 + 长期记忆
工具调用与外部世界交互API、Function Calling
规划能力分解复杂任务ReAct、Tree of Thoughts

记忆系统

短期记忆 vs 长期记忆

短期记忆(Working Memory):
  当前对话的上下文
  存储在 LLM 的上下文窗口中
  容量有限(受 token 限制)

  例:Agent 在执行任务过程中记住前几步做了什么

长期记忆(Long-term Memory):
  跨会话持久存储的信息
  通常使用向量数据库
  可以检索相关记忆

  例:Agent 记住用户的偏好、之前的交互历史

记忆检索

长期记忆的使用流程:

  存入:用户信息 → Embedding → 向量数据库
  检索:当前问题 → Embedding → 相似度搜索 → 相关记忆
  使用:将检索到的记忆注入 LLM 上下文

  类比:
    短期记忆 = 你的注意力(当下在想什么)
    长期记忆 = 你的笔记本(随时可以翻阅)

Agent 的规划策略

ReAct(Reasoning + Acting)

交替进行推理和行动:

  Question: 2010 年世界杯冠军的国家首都的人口是多少?

  Thought 1: 我需要先找出 2010 年世界杯冠军
  Action 1: Search("2010 FIFA World Cup winner")
  Observation 1: 西班牙

  Thought 2: 现在我需要找西班牙的首都
  Action 2: Search("capital of Spain")
  Observation 2: 马德里

  Thought 3: 现在我需要找马德里的人口
  Action 3: Search("population of Madrid")
  Observation 3: 约 330 万

  Thought 4: 我现在知道答案了
  Answer: 马德里,人口约 330 万

Tree of Thoughts(思维树)

当问题有多个可能的解决路径时:

          问题
        /  |  \
      路径1 路径2 路径3  ← 展开多种可能
      / \    |
    ...  ... ...        ← 继续探索

    评估每条路径的可行性
    选择最有希望的继续深入

Agent 的应用

类型描述示例
编程 Agent自主编写、测试、调试代码Devin、Claude Code
研究助手搜索文献、总结发现Perplexity
客服 Agent处理客户查询和投诉各类智能客服
数据分析自动分析数据并生成报告代码解释器
个人助理日程管理、邮件处理各类 AI 助手

Agent 的挑战

当前的主要挑战:

1. 可靠性
   Agent 在复杂任务中容易出错或偏离目标
   多步执行中错误会累积

2. 成本
   每一步都需要调用 LLM → Token 消耗大
   复杂任务可能需要数十次 LLM 调用

3. 安全性
   Agent 可以自主行动 → 潜在风险更大
   需要人工审核和护栏

4. 评估
   如何衡量 Agent 的表现?
   不同任务需要不同的评估标准

本节小结

概念要点
Agent能自主感知、规划、行动的 AI 系统
感知-规划-行动Agent 的核心循环
记忆系统短期(上下文窗口)+ 长期(向量数据库)
规划策略ReAct(推理+行动交替)、思维树
挑战可靠性、成本、安全性、评估

思考题

  1. Devin 的故事告诉我们,AI 演示和真实能力之间可能存在巨大差距。你如何判断一个 AI 产品的宣传是否可信?
  2. Agent 和传统软件自动化(如 RPA)的本质区别是什么?
  3. 如何设计一个安全的 Agent?它应该有哪些限制和护栏?