Agent 领域在 2025-2026 年间发生了几个根本性的变化,这些变化正在重塑从模型设计到产品形态的整个生态。本篇梳理这些变化,并对当前主流 Agent 产品的设计哲学做对比分析。
一、Reasoning Model 改变了什么
1.1 “思考型模型”的出现
2024 年底以来,OpenAI o1/o3、DeepSeek-R1、Google Gemini Thinking、Qwen QwQ 等”Reasoning Model”(推理模型)相继发布。这类模型的核心特征:在生成最终答案之前,先产生一段内部”思考链”(Chain of Thought),这个思考过程对用户不可见(或半可见),但显著提升了复杂推理任务的准确率。
这不只是性能提升,而是架构哲学的转变。
1.2 对 Agent 设计的影响
传统 Agent 的设计逻辑:用外部 Scaffolding 弥补 LLM 的推理不足。通过 ReAct 循环、多步规划、Reflection 机制,让 LLM 完成它单步无法完成的复杂任务。
Reasoning Model 的出现提出了新问题:如果模型自己就能做复杂推理,外部 Scaffolding 还需要多少?
目前的答案是”部分替代,不是全部替代”:
| 场景 | 是否还需要外部 Scaffolding |
|---|---|
| 复杂数学/逻辑推理 | 不需要,Reasoning Model 自己搞定 |
| 需要调用外部工具(搜索、计算、API) | 仍然需要,模型内部思考不能替代外部信息 |
| 需要长时间运行的多步任务 | 仍然需要,上下文窗口和计算成本有限制 |
| 多 Agent 协作 | 仍然需要,单模型无法同时扮演多个角色 |
实际影响:对于简单的 ReAct 循环任务,直接用 Reasoning Model 单次调用可能比 3-5 轮 ReAct 更准确且更便宜;但对于需要真实工具调用、长时运行、多 Agent 协作的场景,外部架构仍不可缺少。
1.3 “快思考 vs 慢思考”在 Agent 里的体现
Kahneman 的双系统理论在 Agent 设计中有新的映射:
- 系统 1(快):反应式 Agent,直接 LLM 调用,适合简单任务
- 系统 2(慢):Reasoning Model + 外部工具循环,适合需要深度推理的复杂任务
好的 Agent 设计应该能够在两种模式之间动态切换,而不是固定使用一种。
二、Computer Use / Browser Use:新的行动边界
2.1 从 API 到 GUI
传统工具调用的前提是:目标系统提供结构化 API(REST、GraphQL、函数调用)。但现实世界中,大量系统没有 API,或 API 权限受限——它们的交互界面是图形界面(GUI)。
Computer Use(由 Anthropic 于 2024 年首次发布 API)和 Browser Use(开源库)让 Agent 具备了直接操控 GUI 的能力:
- 截取屏幕截图,理解当前界面状态
- 模拟鼠标点击、键盘输入、页面滚动
- 填写表单、导航网页、操作桌面应用
这意味着 Agent 能做的事情从”调用有 API 的服务”扩展到了”任何人类能在电脑上做的事情”。
2.2 主要产品形态
- Anthropic Computer Use API:以视觉感知+动作生成为核心,开发者可以基于此构建任意 GUI 自动化
- OpenAI Operator:针对浏览器的 Agent,可以自主完成网页上的购物、预订、表单填写等任务
- Browser Use(开源):Python 库,支持主流浏览器,是个人开发者快速构建浏览器 Agent 的常用工具
2.3 带来的新挑战
安全边界模糊:Agent 能操控整个电脑,如果被 Prompt Injection 劫持,攻击者可以让 Agent 截图、访问文件、执行任意操作。视觉 Prompt Injection(在网页上放置隐藏指令图片)是新的攻击面。
不确定性增加:GUI 的状态比 API 复杂得多,同一个网页在不同屏幕分辨率、不同加载状态下可能完全不同,Agent 的鲁棒性要求更高。
适用场景:Computer Use 目前最适合有明确目标、操作步骤相对固定的场景(如自动化测试、数据录入);开放性、探索性的任务成功率仍然有限。
三、MCP 生态的爆发
3.1 什么是 MCP
MCP(Model Context Protocol) 是 Anthropic 于 2024 年底推出的开放协议,目标是标准化 AI 模型与外部工具/数据源之间的通信方式。
类比:MCP 对于 AI 工具集成,类似于 USB 对于硬件设备——在 USB 之前,每个设备都需要专用驱动;有了 USB 标准,任何设备插入任何电脑都能工作。
3.2 MCP 的架构
1 | ┌──────────────┐ MCP 协议 ┌──────────────────┐ |
MCP Server:暴露工具(Tools)、资源(Resources)和提示词模板(Prompts)的服务。任何人都可以发布 MCP Server。
MCP Client:能够发现和调用 MCP Server 的 AI 助手。Claude(Anthropic)、Cursor、VS Code、Windsurf 等都支持 MCP 客户端。
3.3 MCP 的意义与现状
MCP 的快速采用标志着 Agent 工具集成从”为每个服务写专用 Tool”转向”即插即用的工具生态系统”。截至 2026 年,社区已有数百个 MCP Server,覆盖 GitHub、Slack、Google Drive、数据库、浏览器等。
与相关协议的对比:
| 协议 | 设计目标 | 通信对象 |
|---|---|---|
| MCP | 模型调用工具/数据源 | 模型 ↔ 工具服务 |
| A2A(Agent-to-Agent) | Agent 之间互相调用 | Agent ↔ Agent |
| ANP(Agent Network Protocol) | 更广泛的去中心化 Agent 网络 | Agent ↔ Agent 网络 |
MCP 已经是事实上的工具集成标准,A2A 和 ANP 是面向多 Agent 协作的更高层协议,尚在早期阶段。
四、评估体系:如何衡量 Agent 的能力
随着 Agent 应用的普及,”我的 Agent 效果怎么样”成为无法回避的问题。
4.1 为什么传统指标不够用
对于单轮问答,准确率/F1 是合理的评估指标。但 Agent 的评估更复杂:
- 任务成功不只是”最终答案正确”,过程中的工具调用是否合理同样重要
- 同一个任务可能有多条正确的解题路径
- 人工评估成本高,但自动化评估难以捕捉任务的细节
4.2 主流 Agent 评估基准
SWE-bench(软件工程基准)
从真实 GitHub 仓库中选取 Issue,要求 Agent 通过修改代码来解决。测试维度:代码理解、多文件修改、测试运行。是目前编码 Agent 最受认可的基准,各大厂商在此基准上激烈竞争。
GAIA(通用 AI 助手基准)
测试 Agent 处理需要多步骤的现实世界任务:网页浏览、文件处理、信息整合、数值计算。任务难度分三级,顶级任务需要十几步才能完成。相比 SWE-bench,GAIA 更偏通用助手能力。
BFCL(Berkeley Function Calling Leaderboard)
专门测试 Agent 的工具调用(Function Calling)能力:工具选择是否正确、参数是否准确、并行调用是否合理。对于工具密集型的 Agent 系统,这是最直接的能力评估基准。
Tau-bench
测试 Agent 在真实用户对话场景下(客服、助手)的工具调用能力,更接近实际业务场景。
4.3 LLM-as-Judge:用 AI 评估 AI
人工评估昂贵且难以规模化,LLM-as-Judge 成为常见替代方案:用一个强大的 LLM(如 GPT-4o 或 Claude Opus)来评估另一个 LLM/Agent 的输出质量。
优点:可规模化,评估成本低,能处理主观质量问题(文章写作质量、回答的全面性)。
局限:评估模型自身的偏见会带入评估结果;强模型偏好自己或相似风格的输出;在事实性核查上仍然可能犯错。
评估演进弧:
1 | 人工评估 → 自动化指标(BLEU/F1)→ LLM-as-Judge → Benchmark Suite(SWE/GAIA)→ 生产环境持续评估 |
生产环境的持续评估是最终目标:在真实用户请求中抽样,自动评估 Agent 输出质量,建立质量监控闭环。
五、Agentic RL:用行为本身作为训练信号
核心理念:与其手工设计 Agent 的行为(ReAct、Plan-and-Solve),不如让模型通过与环境的真实交互来学习最优策略。
GRPO/PPO 在 Agent 上的应用:
- 让 Agent 在真实任务上尝试(如 SWE-bench 题目)
- 任务完成→正奖励,失败→负奖励
- 用强化学习更新模型权重,使其更倾向于产生正奖励的行动序列
DeepSeek-R1 是这个方向最引人注目的案例:通过大规模强化学习,模型在数学和代码任务上的推理能力显著超过了单纯通过 SFT(监督微调)训练的版本。
对 Agent 工程的意义:Agentic RL 训练出的模型会更自然地使用工具、更主动地规划,而不需要大量的 Prompt Engineering 来引导。这是 Agent 能力内化到模型权重的方向,与外部 Harness Engineering 形成互补。
六、2026 年产品格局全景
6.1 产品分类与代表
编码 Agent(最成熟的落地场景)
| 产品 | 出品方 | 核心定位 | 特点 |
|---|---|---|---|
| Claude Code | Anthropic | CLI 编程助手 | 理解完整代码库,支持终端操作、测试、调试;Harness Engineering 的工程典范 |
| Cursor | Cursor Inc | AI 原生代码编辑器 | 从编辑器设计层面集成 AI,代码库级别的上下文理解 |
| GitHub Copilot Workspace | GitHub/OpenAI | 从 Issue 到 PR 的全流程 | 能理解 Issue 并自动生成实现方案,但仍需人工审查 |
| Devin | Cognition AI | 全自主软件工程师 | 能自主完成整个功能的实现,是 SWE-bench 前期的领先者 |
| Windsurf | Codeium | AI 原生 IDE | 强调”Flow”——AI 与开发者无缝协作的体验 |
个人 Agent(开源/自托管)
| 产品 | 定位 | 核心特点 |
|---|---|---|
| OpenClaw (68K⭐) | 跨平台个人 AI 助手 | Any OS/Platform,50+ 渠道,SOUL.md 人格配置,自托管 |
| nanobot | 极简个人 Agent | 小而可读的核心 Loop,研究友好,支持 MCP 和多渠道 |
通用 Agent(云服务)
| 产品 | 出品方 | 定位 | 特点 |
|---|---|---|---|
| Manus | Monica.im | 通用任务完成 Agent | 中国团队,2025 年初爆发,能自主完成研究报告、代码、分析等复杂任务 |
| OpenAI Operator | OpenAI | 浏览器任务自动化 | 专注网页操作,购物、预订、表单填写 |
| Perplexity | Perplexity AI | 搜索增强问答 | RAG+实时搜索,是搜索引擎和 Agent 的结合 |
6.2 设计哲学对比
自主性维度:Devin/Manus → 高自主(你给目标,它自己完成);Claude Code/Cursor → 协作式(它提建议,你决策);OpenClaw → 个人助手(随时可用,持续在线)
托管 vs 自托管:Manus/Operator/Devin 是云服务(数据上云);Claude Code/Cursor 本地运行(代码在本地);OpenClaw/nanobot 完全自托管(数据完全自控)
垂直 vs 通用:编码 Agent 是深度垂直;Manus/Operator 尝试通用;OpenClaw/nanobot 以个人效率为核心
6.3 行业趋势观察
从通用转向垂直:2024 年以来,资本和工程资源越来越集中在垂直场景的深度优化上(法律 Agent、医疗 Agent、编码 Agent),而非追求”什么都能做”。
开源生态崛起:OpenClaw(68K⭐)、nanobot、smolagents 等开源 Agent 的快速增长,表明开发者社区对”可自托管、可定制”的强烈需求。云服务在数据隐私敏感的场景存在天然障碍。
MCP 成为新的集成标准:越来越多的工具和服务开始发布官方 MCP Server,Agent 的工具集成成本持续降低,这会加速 Agent 在各行业的渗透。
评估基准驱动竞争:SWE-bench 已经成为编码 Agent 的行业标杆,各产品在此基准上的竞争推动了整体能力的快速提升。这种”有公认基准→有目标→快速迭代”的模式会在更多垂直领域复制。
七、总结
| 趋势 | 核心变化 |
|---|---|
| Reasoning Model | 模型内部推理能力增强,部分简单 Scaffolding 可简化,但工具调用和多 Agent 场景仍需外部架构 |
| Computer Use | Agent 行动边界从 API 扩展到 GUI,能做任何人能在电脑上做的事,但安全挑战加剧 |
| MCP 生态 | 工具集成标准化,社区 MCP Server 生态爆发,即插即用成为可能 |
| 评估体系 | SWE-bench/GAIA/BFCL 成为能力基准;LLM-as-Judge 规模化评估;持续评估是方向 |
| Agentic RL | 用真实交互的奖励信号训练模型,Agent 能力内化到权重,减少对 Prompt Engineering 的依赖 |
| 产品格局 | 编码 Agent 最成熟;通用 Agent 崛起(Manus/Operator);开源自托管需求强(OpenClaw/nanobot);垂直化是大方向 |
八、系列回顾
七篇笔记构建了一套完整的 Agent 认知框架:
- 全景认知:三个心智模型(LLM as OS / Agent 公式 / Chatbot→Agent 光谱)+ 基础概念
- LLM 基础:技术机制 + 局限性 + PE→CE→Harness Engineering 三阶段演进
- 核心范式:五种编排模式 + ReAct/Plan-and-Solve/Reflection + Function Calling + Structured Output
- 框架生态:六层分类图谱 + 选型判断逻辑 + OpenClaw/nanobot 个人 Agent 代表
- 记忆与知识:四种记忆类型 + RAG 原理 + Agentic RAG + GraphRAG + 长上下文 vs RAG
- 工程可靠性:自主性谱系 + HITL + 可观测性 + 安全防护 + 成本三角
- 前沿与格局:Reasoning Model + Computer Use + MCP + 评估体系 + 产品全景
从概念到工程,从范式到产品——这套框架的目的是让你在面对 Agent 领域的任何新名词、新产品、新技术时,都能快速找到它在这张地图上的位置。