Agent —— 智能体全景认知

开宗明义,先建立三个心智模型作为坐标系,再展开所有细节。

一、三个核心心智模型

1.1 LLM as OS

Andrej Karpathy 的这个类比是理解现代 Agent 最简洁的框架:

操作系统组件 Agent 对应
CPU LLM 推理引擎
RAM(工作内存) Context Window
硬盘(长期存储) Memory / Vector DB
I/O 设备 Tools(工具调用、API、传感器)
进程 Agent Loop
多进程 / 多线程 Multi-Agent 系统

这个框架的价值在于:它让”Agent 为什么需要 Memory”、”Context Window 为什么是瓶颈”、”工具调用为什么重要”这些问题都有了自然的答案——因为操作系统需要内存管理、I/O 设备、进程调度,Agent 也一样。

1.2 Agent 的组成公式

1
Agent = LLM + Memory + Tools + Perception
  • LLM:推理和决策的核心,”大脑”
  • Memory:短期(Context Window)+ 长期(外部存储,向量数据库等)
  • Tools:行动能力,Agent 能对外部世界施加影响的手段
  • Perception:感知输入,文本、图像、API 返回值、传感器数据

四个要素缺一不可。只有 LLM 没有 Memory 的系统是无状态聊天;没有 Tools 的系统无法影响外部世界;没有 Perception 的系统是盲目的。这个公式是后续所有讨论的基础。

1.3 从 Chatbot 到 Agent 的能力光谱

Agent 不是一个开关,而是一个连续的能力谱系:

1
2
3
4
5
6
7
8
9
10
11
Level 1  纯对话 LLM                  —— 只能生成文本,无记忆无工具
↓ + 检索增强
Level 2 RAG 对话系统 —— 能查知识库,但单次问答
↓ + 工具调用
Level 3 单次工具调用 —— 调用一次 API/函数即结束
↓ + 多轮循环
Level 4 ReAct Agent —— 感知-思考-行动循环,能多步推进
↓ + 任务规划
Level 5 规划型 Agent —— 先分解子任务,再逐步执行
↓ + 多 Agent 协作
Level 6 Multi-Agent 系统 —— 多个专业 Agent 分工协作

理解自己的系统处于哪个 Level,是选择架构和技术方案的起点。大多数企业实际落地的是 Level 3-4,Level 5-6 是当前研究和工程的前沿。


二、什么是智能体

2.1 定义

AI 领域对 Agent 的经典定义来自 Russell & Norvig 《人工智能:一种现代方法》:

任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过**执行器(Actuators)采取行动(Action)**以达成特定目标的实体。

关键词是自主性(Autonomy)——Agent 不是被动执行指令的脚本,而是能够基于感知和内部状态独立决策的系统。这种”感知→决策→行动”的闭环,是所有 Agent 行为的基础。

2.2 PEAS 模型:定义任务环境

在设计 Agent 之前,用 PEAS 框架精确描述任务环境是工程上的第一步:

要素 含义 以”旅行助手 Agent”为例
Performance 性能度量,什么算”做好了” 行程满意度、预算符合度、信息准确率
Environment Agent 所处的外部世界 航班/酒店 API、用户偏好、实时天气数据
Actuators 行动能力,能做什么 搜索航班、预订酒店、发送行程建议
Sensors 感知能力,能获取什么 用户自然语言输入、API 响应、位置信息

任务环境的特性直接影响 Agent 设计复杂度:

  • 部分可观察(Partially Observable):信息不完整,Agent 必须记住已查询过的内容并主动探索缺失信息
  • 随机性(Stochastic):相同查询可能返回不同结果(票价波动),需要处理不确定性
  • 序贯性(Sequential):当前决策影响后续选项,不能独立做每一步决策
  • 动态性(Dynamic):环境在 Agent 决策过程中可能已经改变(座位被订走)

2.3 Agent Loop:核心运行机制

Agent 不是一次性的请求-响应,而是通过持续循环与环境交互:

1
2
3
4
5
6
7
8
9
感知(Perception)← 获取新的观察(Observation)

思考(Thought)
├── 规划(Planning):基于当前状态和目标制定行动计划
└── 工具选择(Tool Selection):选择下一步最适合的工具

行动(Action)← 调用工具、执行代码、调用 API

环境状态改变 → 产生新的 Observation → 回到感知

在 LLM Agent 中,这个循环具体表现为 Thought-Action-Observation 三元组:

1
2
3
4
5
6
7
8
Thought:     用户想查北京今天的天气,我需要先调用天气查询工具。
Action: get_weather(city="北京")
Observation: 北京当前晴,26°C,微风。
Thought: 已获得天气信息,现在可以根据晴天推荐户外景点了...
Action: search_attraction(city="北京", weather="晴天")
Observation: 推荐颐和园、天坛公园...
Thought: 信息充足,可以给出最终答案。
Action: Finish[今天北京晴,26°C,推荐去颐和园...]

循环的终止条件:达成目标(Finish)、超过最大步数限制、或遇到无法处理的错误。


三、Agent 的分类体系

3.1 按决策架构:传统到现代的演进

类型 核心机制 局限 代表案例
反射型 Agent 条件-动作规则,无记忆 无法处理上下文 恒温器、防火墙规则
基于模型的 Agent 维护内部世界状态 世界模型需手工构建 隧道中的自动驾驶
基于目标的 Agent 规划达成目标的行动序列 单一目标,无多目标权衡 GPS 导航
基于效用的 Agent 最大化期望效用,权衡多目标 效用函数难以定义 推荐系统
学习型 Agent 通过经验改进决策策略 训练成本高,收敛慢 AlphaGo、RL 系统
LLM Agent 通用语言推理 + 工具调用 幻觉、成本、延迟 Claude Code、GPT-4

LLM Agent 是特殊的混合型——用预训练知识作为隐式世界模型,用自然语言作为规划媒介,用工具调用作为执行器。它的出现使”通用 Agent”从理论走向了实践。

3.2 按反应速度:反应性 vs 规划性

  • 反应式(Reactive):对输入做出近乎即时的响应,不进行未来规划。优点:速度快、开销低;缺点:”短视”,容易陷入局部最优。适用场景:安全气囊、高频交易
  • 规划式(Deliberative):在行动前进行深度推理和规划,类似棋手预算后续十步。优点:决策质量高;缺点:延迟大,在快速变化的环境中可能错过时机
  • 混合式(Hybrid):底层反应模块处理紧急情况,高层规划模块处理复杂目标。LLM Agent 通常属于此类——每轮”思考”是规划,每次工具调用后立即处理结果是反应

3.3 按知识表示:符号主义 vs 亚符号主义

  • 符号主义 AI:显式规则和逻辑推理(专家系统)。优点:可解释,推理透明;缺点:”知识获取瓶颈”,遇到未覆盖的情况就崩溃
  • 亚符号主义 AI(连接主义):神经网络,从数据中学习统计模式。优点:泛化能力强,能处理非结构化数据;缺点:黑盒,推理过程不可解释
  • 神经符号混合:融合两者。LLM Agent 是典型代表——神经网络做感知和语言生成,结构化输出(JSON、函数调用)做可解释的行动。这对应 Kahneman 的”系统1(快速直觉)+ 系统2(慢速推理)”双系统理论

四、多 Agent 协作模式

单个 Agent 处理复杂任务有能力上限,多 Agent 协作是突破这个上限的主要路径。

4.1 三种主要架构模式

角色扮演式协作:为每个 Agent 分配明确角色(程序员、产品经理、测试工程师),通过结构化对话协同完成任务。每个 Agent 有自己的专业知识和职责边界。代表框架:CAMEL、CrewAI。

组织化工作流:模拟真实团队分工,用标准操作程序(SOP)驱动,层级化或流水线式协作。每个 Agent 的输出是下一个 Agent 的输入。代表框架:MetaGPT(模拟软件公司)。

状态机控制流:将 Agent 执行过程建模为带状态的图(State Graph),支持循环、分支、条件跳转和人工介入节点。代表框架:LangGraph。这是目前工程可控性最好的多 Agent 架构。

4.2 Workflow vs Agent:本质差异

这是工程实践中最高频的混淆点:

维度 Workflow Agent
决策方式 预定义路径,条件分支固定 LLM 动态推理决策
灵活性 低,只处理设计内的情况 高,能应对新情况
可预测性 高,行为完全确定 低,结果难以完全预测
调试难度 低,路径清晰 高,推理链路需要追踪
适用场景 流程稳定、合规要求高 任务模糊、需要判断力

工程实践中的最佳路径:两者不是竞争关系。将稳定、可枚举的流程用 Workflow 固化,将需要理解和判断的节点替换为 Agent——这种”Workflow 骨架 + Agent 关节”的混合设计,是目前生产环境落地最成熟的模式。


五、总结

核心概念 一句话
LLM as OS 上下文=RAM,工具=IO,权重=硬盘,Agent Loop=进程
Agent 公式 LLM + Memory + Tools + Perception
Chatbot→Agent 光谱 6 个 Level,从纯对话到多 Agent,是连续谱不是开关
PEAS 设计 Agent 前的环境分析框架
Agent Loop 感知-思考-行动-观察,持续循环不是单次问答
Workflow vs Agent 固定路径 vs 动态推理,最佳实践是混合

下一篇:Agent 的”大脑”——大语言模型的技术基础,以及工程师角色从”提示词写手”到”系统设计者”的三阶段演进。