开宗明义,先建立三个心智模型作为坐标系,再展开所有细节。
一、三个核心心智模型
1.1 LLM as OS
Andrej Karpathy 的这个类比是理解现代 Agent 最简洁的框架:
| 操作系统组件 | Agent 对应 |
|---|---|
| CPU | LLM 推理引擎 |
| RAM(工作内存) | Context Window |
| 硬盘(长期存储) | Memory / Vector DB |
| I/O 设备 | Tools(工具调用、API、传感器) |
| 进程 | Agent Loop |
| 多进程 / 多线程 | Multi-Agent 系统 |
这个框架的价值在于:它让”Agent 为什么需要 Memory”、”Context Window 为什么是瓶颈”、”工具调用为什么重要”这些问题都有了自然的答案——因为操作系统需要内存管理、I/O 设备、进程调度,Agent 也一样。
1.2 Agent 的组成公式
1 | Agent = LLM + Memory + Tools + Perception |
- LLM:推理和决策的核心,”大脑”
- Memory:短期(Context Window)+ 长期(外部存储,向量数据库等)
- Tools:行动能力,Agent 能对外部世界施加影响的手段
- Perception:感知输入,文本、图像、API 返回值、传感器数据
四个要素缺一不可。只有 LLM 没有 Memory 的系统是无状态聊天;没有 Tools 的系统无法影响外部世界;没有 Perception 的系统是盲目的。这个公式是后续所有讨论的基础。
1.3 从 Chatbot 到 Agent 的能力光谱
Agent 不是一个开关,而是一个连续的能力谱系:
1 | Level 1 纯对话 LLM —— 只能生成文本,无记忆无工具 |
理解自己的系统处于哪个 Level,是选择架构和技术方案的起点。大多数企业实际落地的是 Level 3-4,Level 5-6 是当前研究和工程的前沿。
二、什么是智能体
2.1 定义
AI 领域对 Agent 的经典定义来自 Russell & Norvig 《人工智能:一种现代方法》:
任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过**执行器(Actuators)采取行动(Action)**以达成特定目标的实体。
关键词是自主性(Autonomy)——Agent 不是被动执行指令的脚本,而是能够基于感知和内部状态独立决策的系统。这种”感知→决策→行动”的闭环,是所有 Agent 行为的基础。
2.2 PEAS 模型:定义任务环境
在设计 Agent 之前,用 PEAS 框架精确描述任务环境是工程上的第一步:
| 要素 | 含义 | 以”旅行助手 Agent”为例 |
|---|---|---|
| Performance | 性能度量,什么算”做好了” | 行程满意度、预算符合度、信息准确率 |
| Environment | Agent 所处的外部世界 | 航班/酒店 API、用户偏好、实时天气数据 |
| Actuators | 行动能力,能做什么 | 搜索航班、预订酒店、发送行程建议 |
| Sensors | 感知能力,能获取什么 | 用户自然语言输入、API 响应、位置信息 |
任务环境的特性直接影响 Agent 设计复杂度:
- 部分可观察(Partially Observable):信息不完整,Agent 必须记住已查询过的内容并主动探索缺失信息
- 随机性(Stochastic):相同查询可能返回不同结果(票价波动),需要处理不确定性
- 序贯性(Sequential):当前决策影响后续选项,不能独立做每一步决策
- 动态性(Dynamic):环境在 Agent 决策过程中可能已经改变(座位被订走)
2.3 Agent Loop:核心运行机制
Agent 不是一次性的请求-响应,而是通过持续循环与环境交互:
1 | 感知(Perception)← 获取新的观察(Observation) |
在 LLM Agent 中,这个循环具体表现为 Thought-Action-Observation 三元组:
1 | Thought: 用户想查北京今天的天气,我需要先调用天气查询工具。 |
循环的终止条件:达成目标(Finish)、超过最大步数限制、或遇到无法处理的错误。
三、Agent 的分类体系
3.1 按决策架构:传统到现代的演进
| 类型 | 核心机制 | 局限 | 代表案例 |
|---|---|---|---|
| 反射型 Agent | 条件-动作规则,无记忆 | 无法处理上下文 | 恒温器、防火墙规则 |
| 基于模型的 Agent | 维护内部世界状态 | 世界模型需手工构建 | 隧道中的自动驾驶 |
| 基于目标的 Agent | 规划达成目标的行动序列 | 单一目标,无多目标权衡 | GPS 导航 |
| 基于效用的 Agent | 最大化期望效用,权衡多目标 | 效用函数难以定义 | 推荐系统 |
| 学习型 Agent | 通过经验改进决策策略 | 训练成本高,收敛慢 | AlphaGo、RL 系统 |
| LLM Agent | 通用语言推理 + 工具调用 | 幻觉、成本、延迟 | Claude Code、GPT-4 |
LLM Agent 是特殊的混合型——用预训练知识作为隐式世界模型,用自然语言作为规划媒介,用工具调用作为执行器。它的出现使”通用 Agent”从理论走向了实践。
3.2 按反应速度:反应性 vs 规划性
- 反应式(Reactive):对输入做出近乎即时的响应,不进行未来规划。优点:速度快、开销低;缺点:”短视”,容易陷入局部最优。适用场景:安全气囊、高频交易
- 规划式(Deliberative):在行动前进行深度推理和规划,类似棋手预算后续十步。优点:决策质量高;缺点:延迟大,在快速变化的环境中可能错过时机
- 混合式(Hybrid):底层反应模块处理紧急情况,高层规划模块处理复杂目标。LLM Agent 通常属于此类——每轮”思考”是规划,每次工具调用后立即处理结果是反应
3.3 按知识表示:符号主义 vs 亚符号主义
- 符号主义 AI:显式规则和逻辑推理(专家系统)。优点:可解释,推理透明;缺点:”知识获取瓶颈”,遇到未覆盖的情况就崩溃
- 亚符号主义 AI(连接主义):神经网络,从数据中学习统计模式。优点:泛化能力强,能处理非结构化数据;缺点:黑盒,推理过程不可解释
- 神经符号混合:融合两者。LLM Agent 是典型代表——神经网络做感知和语言生成,结构化输出(JSON、函数调用)做可解释的行动。这对应 Kahneman 的”系统1(快速直觉)+ 系统2(慢速推理)”双系统理论
四、多 Agent 协作模式
单个 Agent 处理复杂任务有能力上限,多 Agent 协作是突破这个上限的主要路径。
4.1 三种主要架构模式
角色扮演式协作:为每个 Agent 分配明确角色(程序员、产品经理、测试工程师),通过结构化对话协同完成任务。每个 Agent 有自己的专业知识和职责边界。代表框架:CAMEL、CrewAI。
组织化工作流:模拟真实团队分工,用标准操作程序(SOP)驱动,层级化或流水线式协作。每个 Agent 的输出是下一个 Agent 的输入。代表框架:MetaGPT(模拟软件公司)。
状态机控制流:将 Agent 执行过程建模为带状态的图(State Graph),支持循环、分支、条件跳转和人工介入节点。代表框架:LangGraph。这是目前工程可控性最好的多 Agent 架构。
4.2 Workflow vs Agent:本质差异
这是工程实践中最高频的混淆点:
| 维度 | Workflow | Agent |
|---|---|---|
| 决策方式 | 预定义路径,条件分支固定 | LLM 动态推理决策 |
| 灵活性 | 低,只处理设计内的情况 | 高,能应对新情况 |
| 可预测性 | 高,行为完全确定 | 低,结果难以完全预测 |
| 调试难度 | 低,路径清晰 | 高,推理链路需要追踪 |
| 适用场景 | 流程稳定、合规要求高 | 任务模糊、需要判断力 |
工程实践中的最佳路径:两者不是竞争关系。将稳定、可枚举的流程用 Workflow 固化,将需要理解和判断的节点替换为 Agent——这种”Workflow 骨架 + Agent 关节”的混合设计,是目前生产环境落地最成熟的模式。
五、总结
| 核心概念 | 一句话 |
|---|---|
| LLM as OS | 上下文=RAM,工具=IO,权重=硬盘,Agent Loop=进程 |
| Agent 公式 | LLM + Memory + Tools + Perception |
| Chatbot→Agent 光谱 | 6 个 Level,从纯对话到多 Agent,是连续谱不是开关 |
| PEAS | 设计 Agent 前的环境分析框架 |
| Agent Loop | 感知-思考-行动-观察,持续循环不是单次问答 |
| Workflow vs Agent | 固定路径 vs 动态推理,最佳实践是混合 |
下一篇:Agent 的”大脑”——大语言模型的技术基础,以及工程师角色从”提示词写手”到”系统设计者”的三阶段演进。