Agent —— 前沿趋势与产品格局

#Agent

Agent 领域在 2025-2026 年间发生了几个根本性的变化，这些变化正在重塑从模型设计到产品形态的整个生态。本篇梳理这些变化，并对当前主流 Agent 产品的设计哲学做对比分析。

一、Reasoning Model 改变了什么

1.1 “思考型模型”的出现

2024 年底以来，OpenAI o1/o3、DeepSeek-R1、Google Gemini Thinking、Qwen QwQ 等”Reasoning Model”（推理模型）相继发布。这类模型的核心特征：在生成最终答案之前，先产生一段内部”思考链”（Chain of Thought），这个思考过程对用户不可见（或半可见），但显著提升了复杂推理任务的准确率。

这不只是性能提升，而是架构哲学的转变。

1.2 对 Agent 设计的影响

传统 Agent 的设计逻辑：用外部 Scaffolding 弥补 LLM 的推理不足。通过 ReAct 循环、多步规划、Reflection 机制，让 LLM 完成它单步无法完成的复杂任务。

Reasoning Model 的出现提出了新问题：如果模型自己就能做复杂推理，外部 Scaffolding 还需要多少？

目前的答案是”部分替代，不是全部替代”：

场景	是否还需要外部 Scaffolding
复杂数学/逻辑推理	不需要，Reasoning Model 自己搞定
需要调用外部工具（搜索、计算、API）	仍然需要，模型内部思考不能替代外部信息
需要长时间运行的多步任务	仍然需要，上下文窗口和计算成本有限制
多 Agent 协作	仍然需要，单模型无法同时扮演多个角色

实际影响：对于简单的 ReAct 循环任务，直接用 Reasoning Model 单次调用可能比 3-5 轮 ReAct 更准确且更便宜；但对于需要真实工具调用、长时运行、多 Agent 协作的场景，外部架构仍不可缺少。

1.3 “快思考 vs 慢思考”在 Agent 里的体现

Kahneman 的双系统理论在 Agent 设计中有新的映射：

系统 1（快）：反应式 Agent，直接 LLM 调用，适合简单任务
系统 2（慢）：Reasoning Model + 外部工具循环，适合需要深度推理的复杂任务

好的 Agent 设计应该能够在两种模式之间动态切换，而不是固定使用一种。

二、Computer Use / Browser Use：新的行动边界

2.1 从 API 到 GUI

传统工具调用的前提是：目标系统提供结构化 API（REST、GraphQL、函数调用）。但现实世界中，大量系统没有 API，或 API 权限受限——它们的交互界面是图形界面（GUI）。

Computer Use（由 Anthropic 于 2024 年首次发布 API）和 Browser Use（开源库）让 Agent 具备了直接操控 GUI 的能力：

截取屏幕截图，理解当前界面状态
模拟鼠标点击、键盘输入、页面滚动
填写表单、导航网页、操作桌面应用

这意味着 Agent 能做的事情从”调用有 API 的服务”扩展到了”任何人类能在电脑上做的事情”。

2.2 主要产品形态

Anthropic Computer Use API：以视觉感知+动作生成为核心，开发者可以基于此构建任意 GUI 自动化
OpenAI Operator：针对浏览器的 Agent，可以自主完成网页上的购物、预订、表单填写等任务
Browser Use（开源）：Python 库，支持主流浏览器，是个人开发者快速构建浏览器 Agent 的常用工具

2.3 带来的新挑战

安全边界模糊：Agent 能操控整个电脑，如果被 Prompt Injection 劫持，攻击者可以让 Agent 截图、访问文件、执行任意操作。视觉 Prompt Injection（在网页上放置隐藏指令图片）是新的攻击面。

不确定性增加：GUI 的状态比 API 复杂得多，同一个网页在不同屏幕分辨率、不同加载状态下可能完全不同，Agent 的鲁棒性要求更高。

适用场景：Computer Use 目前最适合有明确目标、操作步骤相对固定的场景（如自动化测试、数据录入）；开放性、探索性的任务成功率仍然有限。

三、MCP 生态的爆发

3.1 什么是 MCP

MCP（Model Context Protocol） 是 Anthropic 于 2024 年底推出的开放协议，目标是标准化 AI 模型与外部工具/数据源之间的通信方式。

类比：MCP 对于 AI 工具集成，类似于 USB 对于硬件设备——在 USB 之前，每个设备都需要专用驱动；有了 USB 标准，任何设备插入任何电脑都能工作。

3.2 MCP 的架构

┌──────────────┐     MCP 协议      ┌──────────────────┐
│  MCP Client  │ ←───────────────► │   MCP Server     │
│（AI 助手/IDE）│                   │（工具/数据源提供者）│
└──────────────┘                   └──────────────────┘

MCP Server：暴露工具（Tools）、资源（Resources）和提示词模板（Prompts）的服务。任何人都可以发布 MCP Server。

MCP Client：能够发现和调用 MCP Server 的 AI 助手。Claude（Anthropic）、Cursor、VS Code、Windsurf 等都支持 MCP 客户端。

3.3 MCP 的意义与现状

MCP 的快速采用标志着 Agent 工具集成从”为每个服务写专用 Tool”转向”即插即用的工具生态系统”。截至 2026 年，社区已有数百个 MCP Server，覆盖 GitHub、Slack、Google Drive、数据库、浏览器等。

与相关协议的对比：

协议	设计目标	通信对象
MCP	模型调用工具/数据源	模型 ↔ 工具服务
A2A（Agent-to-Agent）	Agent 之间互相调用	Agent ↔ Agent
ANP（Agent Network Protocol）	更广泛的去中心化 Agent 网络	Agent ↔ Agent 网络

MCP 已经是事实上的工具集成标准，A2A 和 ANP 是面向多 Agent 协作的更高层协议，尚在早期阶段。

四、评估体系：如何衡量 Agent 的能力

随着 Agent 应用的普及，”我的 Agent 效果怎么样”成为无法回避的问题。

4.1 为什么传统指标不够用

对于单轮问答，准确率/F1 是合理的评估指标。但 Agent 的评估更复杂：

任务成功不只是”最终答案正确”，过程中的工具调用是否合理同样重要
同一个任务可能有多条正确的解题路径
人工评估成本高，但自动化评估难以捕捉任务的细节

4.2 主流 Agent 评估基准

SWE-bench（软件工程基准）
从真实 GitHub 仓库中选取 Issue，要求 Agent 通过修改代码来解决。测试维度：代码理解、多文件修改、测试运行。是目前编码 Agent 最受认可的基准，各大厂商在此基准上激烈竞争。

GAIA（通用 AI 助手基准）
测试 Agent 处理需要多步骤的现实世界任务：网页浏览、文件处理、信息整合、数值计算。任务难度分三级，顶级任务需要十几步才能完成。相比 SWE-bench，GAIA 更偏通用助手能力。

BFCL（Berkeley Function Calling Leaderboard）
专门测试 Agent 的工具调用（Function Calling）能力：工具选择是否正确、参数是否准确、并行调用是否合理。对于工具密集型的 Agent 系统，这是最直接的能力评估基准。

Tau-bench
测试 Agent 在真实用户对话场景下（客服、助手）的工具调用能力，更接近实际业务场景。

4.3 LLM-as-Judge：用 AI 评估 AI

人工评估昂贵且难以规模化，LLM-as-Judge 成为常见替代方案：用一个强大的 LLM（如 GPT-4o 或 Claude Opus）来评估另一个 LLM/Agent 的输出质量。

优点：可规模化，评估成本低，能处理主观质量问题（文章写作质量、回答的全面性）。
局限：评估模型自身的偏见会带入评估结果；强模型偏好自己或相似风格的输出；在事实性核查上仍然可能犯错。

评估演进弧：

1	人工评估 → 自动化指标（BLEU/F1）→ LLM-as-Judge → Benchmark Suite（SWE/GAIA）→ 生产环境持续评估

生产环境的持续评估是最终目标：在真实用户请求中抽样，自动评估 Agent 输出质量，建立质量监控闭环。

五、Agentic RL：用行为本身作为训练信号

核心理念：与其手工设计 Agent 的行为（ReAct、Plan-and-Solve），不如让模型通过与环境的真实交互来学习最优策略。

GRPO/PPO 在 Agent 上的应用：

让 Agent 在真实任务上尝试（如 SWE-bench 题目）
任务完成→正奖励，失败→负奖励
用强化学习更新模型权重，使其更倾向于产生正奖励的行动序列

DeepSeek-R1 是这个方向最引人注目的案例：通过大规模强化学习，模型在数学和代码任务上的推理能力显著超过了单纯通过 SFT（监督微调）训练的版本。

对 Agent 工程的意义：Agentic RL 训练出的模型会更自然地使用工具、更主动地规划，而不需要大量的 Prompt Engineering 来引导。这是 Agent 能力内化到模型权重的方向，与外部 Harness Engineering 形成互补。

六、2026 年产品格局全景

6.1 产品分类与代表

编码 Agent（最成熟的落地场景）

产品	出品方	核心定位	特点
Claude Code	Anthropic	CLI 编程助手	理解完整代码库，支持终端操作、测试、调试；Harness Engineering 的工程典范
Cursor	Cursor Inc	AI 原生代码编辑器	从编辑器设计层面集成 AI，代码库级别的上下文理解
GitHub Copilot Workspace	GitHub/OpenAI	从 Issue 到 PR 的全流程	能理解 Issue 并自动生成实现方案，但仍需人工审查
Devin	Cognition AI	全自主软件工程师	能自主完成整个功能的实现，是 SWE-bench 前期的领先者
Windsurf	Codeium	AI 原生 IDE	强调”Flow”——AI 与开发者无缝协作的体验

个人 Agent（开源/自托管）

产品	定位	核心特点
OpenClaw (68K⭐)	跨平台个人 AI 助手	Any OS/Platform，50+ 渠道，SOUL.md 人格配置，自托管
nanobot	极简个人 Agent	小而可读的核心 Loop，研究友好，支持 MCP 和多渠道

通用 Agent（云服务）

产品	出品方	定位	特点
Manus	Monica.im	通用任务完成 Agent	中国团队，2025 年初爆发，能自主完成研究报告、代码、分析等复杂任务
OpenAI Operator	OpenAI	浏览器任务自动化	专注网页操作，购物、预订、表单填写
Perplexity	Perplexity AI	搜索增强问答	RAG+实时搜索，是搜索引擎和 Agent 的结合

6.2 设计哲学对比

自主性维度：Devin/Manus → 高自主（你给目标，它自己完成）；Claude Code/Cursor → 协作式（它提建议，你决策）；OpenClaw → 个人助手（随时可用，持续在线）

托管 vs 自托管：Manus/Operator/Devin 是云服务（数据上云）；Claude Code/Cursor 本地运行（代码在本地）；OpenClaw/nanobot 完全自托管（数据完全自控）

垂直 vs 通用：编码 Agent 是深度垂直；Manus/Operator 尝试通用；OpenClaw/nanobot 以个人效率为核心

6.3 行业趋势观察

从通用转向垂直：2024 年以来，资本和工程资源越来越集中在垂直场景的深度优化上（法律 Agent、医疗 Agent、编码 Agent），而非追求”什么都能做”。

开源生态崛起：OpenClaw（68K⭐）、nanobot、smolagents 等开源 Agent 的快速增长，表明开发者社区对”可自托管、可定制”的强烈需求。云服务在数据隐私敏感的场景存在天然障碍。

MCP 成为新的集成标准：越来越多的工具和服务开始发布官方 MCP Server，Agent 的工具集成成本持续降低，这会加速 Agent 在各行业的渗透。

评估基准驱动竞争：SWE-bench 已经成为编码 Agent 的行业标杆，各产品在此基准上的竞争推动了整体能力的快速提升。这种”有公认基准→有目标→快速迭代”的模式会在更多垂直领域复制。

七、总结

趋势	核心变化
Reasoning Model	模型内部推理能力增强，部分简单 Scaffolding 可简化，但工具调用和多 Agent 场景仍需外部架构
Computer Use	Agent 行动边界从 API 扩展到 GUI，能做任何人能在电脑上做的事，但安全挑战加剧
MCP 生态	工具集成标准化，社区 MCP Server 生态爆发，即插即用成为可能
评估体系	SWE-bench/GAIA/BFCL 成为能力基准；LLM-as-Judge 规模化评估；持续评估是方向
Agentic RL	用真实交互的奖励信号训练模型，Agent 能力内化到权重，减少对 Prompt Engineering 的依赖
产品格局	编码 Agent 最成熟；通用 Agent 崛起（Manus/Operator）；开源自托管需求强（OpenClaw/nanobot）；垂直化是大方向

八、系列回顾

七篇笔记构建了一套完整的 Agent 认知框架：

全景认知：三个心智模型（LLM as OS / Agent 公式 / Chatbot→Agent 光谱）+ 基础概念
LLM 基础：技术机制 + 局限性 + PE→CE→Harness Engineering 三阶段演进
核心范式：五种编排模式 + ReAct/Plan-and-Solve/Reflection + Function Calling + Structured Output
框架生态：六层分类图谱 + 选型判断逻辑 + OpenClaw/nanobot 个人 Agent 代表
记忆与知识：四种记忆类型 + RAG 原理 + Agentic RAG + GraphRAG + 长上下文 vs RAG
工程可靠性：自主性谱系 + HITL + 可观测性 + 安全防护 + 成本三角
前沿与格局：Reasoning Model + Computer Use + MCP + 评估体系 + 产品全景

从概念到工程，从范式到产品——这套框架的目的是让你在面对 Agent 领域的任何新名词、新产品、新技术时，都能快速找到它在这张地图上的位置。

#Agent