Agent —— 智能体全景认知

#Agent

开宗明义，先建立三个心智模型作为坐标系，再展开所有细节。

一、三个核心心智模型

1.1 LLM as OS

Andrej Karpathy 的这个类比是理解现代 Agent 最简洁的框架：

操作系统组件	Agent 对应
CPU	LLM 推理引擎
RAM（工作内存）	Context Window
硬盘（长期存储）	Memory / Vector DB
I/O 设备	Tools（工具调用、API、传感器）
进程	Agent Loop
多进程 / 多线程	Multi-Agent 系统

这个框架的价值在于：它让”Agent 为什么需要 Memory”、”Context Window 为什么是瓶颈”、”工具调用为什么重要”这些问题都有了自然的答案——因为操作系统需要内存管理、I/O 设备、进程调度，Agent 也一样。

1.2 Agent 的组成公式

1	Agent = LLM + Memory + Tools + Perception

LLM：推理和决策的核心，”大脑”
Memory：短期（Context Window）+ 长期（外部存储，向量数据库等）
Tools：行动能力，Agent 能对外部世界施加影响的手段
Perception：感知输入，文本、图像、API 返回值、传感器数据

四个要素缺一不可。只有 LLM 没有 Memory 的系统是无状态聊天；没有 Tools 的系统无法影响外部世界；没有 Perception 的系统是盲目的。这个公式是后续所有讨论的基础。

1.3 从 Chatbot 到 Agent 的能力光谱

Agent 不是一个开关，而是一个连续的能力谱系：

Level 1  纯对话 LLM                  —— 只能生成文本，无记忆无工具
         ↓  + 检索增强
Level 2  RAG 对话系统                —— 能查知识库，但单次问答
         ↓  + 工具调用
Level 3  单次工具调用                —— 调用一次 API/函数即结束
         ↓  + 多轮循环
Level 4  ReAct Agent                 —— 感知-思考-行动循环，能多步推进
         ↓  + 任务规划
Level 5  规划型 Agent                —— 先分解子任务，再逐步执行
         ↓  + 多 Agent 协作
Level 6  Multi-Agent 系统            —— 多个专业 Agent 分工协作

理解自己的系统处于哪个 Level，是选择架构和技术方案的起点。大多数企业实际落地的是 Level 3-4，Level 5-6 是当前研究和工程的前沿。

二、什么是智能体

2.1 定义

AI 领域对 Agent 的经典定义来自 Russell & Norvig 《人工智能：一种现代方法》：

任何能够通过传感器（Sensors）感知其所处环境（Environment），并自主地通过**执行器（Actuators）采取行动（Action）**以达成特定目标的实体。

关键词是自主性（Autonomy）——Agent 不是被动执行指令的脚本，而是能够基于感知和内部状态独立决策的系统。这种”感知→决策→行动”的闭环，是所有 Agent 行为的基础。

2.2 PEAS 模型：定义任务环境

在设计 Agent 之前，用 PEAS 框架精确描述任务环境是工程上的第一步：

要素	含义	以”旅行助手 Agent”为例
Performance	性能度量，什么算”做好了”	行程满意度、预算符合度、信息准确率
Environment	Agent 所处的外部世界	航班/酒店 API、用户偏好、实时天气数据
Actuators	行动能力，能做什么	搜索航班、预订酒店、发送行程建议
Sensors	感知能力，能获取什么	用户自然语言输入、API 响应、位置信息

任务环境的特性直接影响 Agent 设计复杂度：

部分可观察（Partially Observable）：信息不完整，Agent 必须记住已查询过的内容并主动探索缺失信息
随机性（Stochastic）：相同查询可能返回不同结果（票价波动），需要处理不确定性
序贯性（Sequential）：当前决策影响后续选项，不能独立做每一步决策
动态性（Dynamic）：环境在 Agent 决策过程中可能已经改变（座位被订走）

2.3 Agent Loop：核心运行机制

Agent 不是一次性的请求-响应，而是通过持续循环与环境交互：

感知（Perception）← 获取新的观察（Observation）
       ↓
   思考（Thought）
   ├── 规划（Planning）：基于当前状态和目标制定行动计划
   └── 工具选择（Tool Selection）：选择下一步最适合的工具
       ↓
   行动（Action）← 调用工具、执行代码、调用 API
       ↓
   环境状态改变 → 产生新的 Observation → 回到感知

在 LLM Agent 中，这个循环具体表现为 Thought-Action-Observation 三元组：

Thought:     用户想查北京今天的天气，我需要先调用天气查询工具。
Action:      get_weather(city="北京")
Observation: 北京当前晴，26°C，微风。
Thought:     已获得天气信息，现在可以根据晴天推荐户外景点了...
Action:      search_attraction(city="北京", weather="晴天")
Observation: 推荐颐和园、天坛公园...
Thought:     信息充足，可以给出最终答案。
Action:      Finish[今天北京晴，26°C，推荐去颐和园...]

循环的终止条件：达成目标（Finish）、超过最大步数限制、或遇到无法处理的错误。

三、Agent 的分类体系

3.1 按决策架构：传统到现代的演进

类型	核心机制	局限	代表案例
反射型 Agent	条件-动作规则，无记忆	无法处理上下文	恒温器、防火墙规则
基于模型的 Agent	维护内部世界状态	世界模型需手工构建	隧道中的自动驾驶
基于目标的 Agent	规划达成目标的行动序列	单一目标，无多目标权衡	GPS 导航
基于效用的 Agent	最大化期望效用，权衡多目标	效用函数难以定义	推荐系统
学习型 Agent	通过经验改进决策策略	训练成本高，收敛慢	AlphaGo、RL 系统
LLM Agent	通用语言推理 + 工具调用	幻觉、成本、延迟	Claude Code、GPT-4

LLM Agent 是特殊的混合型——用预训练知识作为隐式世界模型，用自然语言作为规划媒介，用工具调用作为执行器。它的出现使”通用 Agent”从理论走向了实践。

3.2 按反应速度：反应性 vs 规划性

反应式（Reactive）：对输入做出近乎即时的响应，不进行未来规划。优点：速度快、开销低；缺点：”短视”，容易陷入局部最优。适用场景：安全气囊、高频交易
规划式（Deliberative）：在行动前进行深度推理和规划，类似棋手预算后续十步。优点：决策质量高；缺点：延迟大，在快速变化的环境中可能错过时机
混合式（Hybrid）：底层反应模块处理紧急情况，高层规划模块处理复杂目标。LLM Agent 通常属于此类——每轮”思考”是规划，每次工具调用后立即处理结果是反应

3.3 按知识表示：符号主义 vs 亚符号主义

符号主义 AI：显式规则和逻辑推理（专家系统）。优点：可解释，推理透明；缺点：”知识获取瓶颈”，遇到未覆盖的情况就崩溃
亚符号主义 AI（连接主义）：神经网络，从数据中学习统计模式。优点：泛化能力强，能处理非结构化数据；缺点：黑盒，推理过程不可解释
神经符号混合：融合两者。LLM Agent 是典型代表——神经网络做感知和语言生成，结构化输出（JSON、函数调用）做可解释的行动。这对应 Kahneman 的”系统1（快速直觉）+ 系统2（慢速推理）”双系统理论

四、多 Agent 协作模式

单个 Agent 处理复杂任务有能力上限，多 Agent 协作是突破这个上限的主要路径。

4.1 三种主要架构模式

角色扮演式协作：为每个 Agent 分配明确角色（程序员、产品经理、测试工程师），通过结构化对话协同完成任务。每个 Agent 有自己的专业知识和职责边界。代表框架：CAMEL、CrewAI。

组织化工作流：模拟真实团队分工，用标准操作程序（SOP）驱动，层级化或流水线式协作。每个 Agent 的输出是下一个 Agent 的输入。代表框架：MetaGPT（模拟软件公司）。

状态机控制流：将 Agent 执行过程建模为带状态的图（State Graph），支持循环、分支、条件跳转和人工介入节点。代表框架：LangGraph。这是目前工程可控性最好的多 Agent 架构。

4.2 Workflow vs Agent：本质差异

这是工程实践中最高频的混淆点：

维度	Workflow	Agent
决策方式	预定义路径，条件分支固定	LLM 动态推理决策
灵活性	低，只处理设计内的情况	高，能应对新情况
可预测性	高，行为完全确定	低，结果难以完全预测
调试难度	低，路径清晰	高，推理链路需要追踪
适用场景	流程稳定、合规要求高	任务模糊、需要判断力

工程实践中的最佳路径：两者不是竞争关系。将稳定、可枚举的流程用 Workflow 固化，将需要理解和判断的节点替换为 Agent——这种”Workflow 骨架 + Agent 关节”的混合设计，是目前生产环境落地最成熟的模式。

五、总结

核心概念	一句话
LLM as OS	上下文=RAM，工具=IO，权重=硬盘，Agent Loop=进程
Agent 公式	LLM + Memory + Tools + Perception
Chatbot→Agent 光谱	6 个 Level，从纯对话到多 Agent，是连续谱不是开关
PEAS	设计 Agent 前的环境分析框架
Agent Loop	感知-思考-行动-观察，持续循环不是单次问答
Workflow vs Agent	固定路径 vs 动态推理，最佳实践是混合

下一篇：Agent 的”大脑”——大语言模型的技术基础，以及工程师角色从”提示词写手”到”系统设计者”的三阶段演进。

#Agent