🇺🇸 EN

Claude Code 浏览器自动化怎么选?5 套方案实测对比(2026)

Browser-use vs Agent Browser vs Playwright CLI vs Playwright MCP vs DevTools MCP,实测 Token 消耗差 10 倍+。本文对比速度、成本、稳定性,附安装命令和选型结论,帮你选对方案。

Bruce

Claude Code浏览器自动化MCPPlaywright CLIPlaywright MCPAgent BrowserBrowser-use

AI实战

1575  字

2026-01-28 15:55 +0000


用 AI 写代码已经不稀奇了,但让 AI 操控浏览器——打开网页、点击按钮、填写表单、抓取数据——这才是真正的"解放双手"。

在 Claude Code 生态中,目前有五个主流的浏览器自动化方案:Browser-use(AI Agent 专用自动化框架)、Vercel 的 Agent BrowserMicrosoft 的 Playwright CLI(2026 新方案)、Microsoft 的 Playwright MCPGoogle 的 DevTools MCP。它们各有所长,选错了可能事倍功半。

本文将深入对比这五个方案,帮你在不同场景下做出最佳选择。

2026-03 更新:新增 Browser-use 方案——专为 AI Agent 打造的浏览器自动化框架,支持本地/云端/真实浏览器三种模式,会话持久化 + 云端并行能力拉满。

2026-02 更新:新增 Playwright CLI 方案——微软官方推荐的新一代 Token 高效方案,实测 Token 消耗比 MCP 降低 4-100 倍。

一、为什么需要浏览器自动化?

传统方式的痛点

假设你想让 AI 帮你做这些事:

  • 打开竞品网站,截图看看他们的新功能
  • 自动登录公司内部系统,导出报表
  • 测试你刚写的网页,看看表单能不能正常提交
  • 抓取某个页面的 API 返回值,排查 Bug

如果没有浏览器自动化,你只能:

  1. 自己手动打开浏览器
  2. 截图或复制内容
  3. 粘贴给 AI 看

这不仅麻烦,而且很多动态内容(如需要登录的页面、JavaScript 渲染的内容)根本没法直接给 AI。

浏览器自动化的价值

有了浏览器自动化,AI 可以:

你说:"帮我打开淘宝,搜索 iPhone 16,看看前 5 个商家的价格"

AI 做:
1. 启动浏览器
2. 打开 taobao.com
3. 在搜索框输入 "iPhone 16"
4. 点击搜索按钮
5. 读取前 5 个商品的价格
6. 整理成表格返回给你

整个过程你只需要一句话,AI 全程自动完成。

二、五大方案速览

在深入对比之前,先看一张总览表:

维度Browser-useAgent BrowserPlaywright CLIPlaywright MCPDevTools MCP
开发者Browser-use 团队Vercel LabsMicrosoftMicrosoftGoogle
定位AI Agent 专用自动化框架AI Agent 专用轻量工具编程 Agent 高效自动化通用浏览器自动化Chrome 调试协议封装
接入方式Bash CLI / SkillBash CLI / SkillShell 命令 / SkillMCP ServerMCP Server + 扩展
Token 消耗极低极低(减少 93%)极低(减少 75-99%)较高中等
浏览器支持Chromium / 真实 Chrome / 云端ChromiumChrome/Firefox/WebKitChrome/Firefox/WebKit仅 Chrome
核心优势多模式 + 会话持久 + 云端并行快、省 Token省 Token + 跨浏览器稳定、功能全调试能力强

一句话总结

  • Browser-useAI Agent 浏览器自动化的"全能王",本地/云端/真实浏览器三种模式随意切换
  • Agent Browser:轻量快速,日常浏览首选
  • Playwright CLI:Token 高效 + 专业能力,编程 Agent 新首选
  • Playwright MCP:功能最全,非 CLI 环境的稳定选择
  • DevTools MCP:调试利器,开发排错首选

三、深入对比:各有什么绝活?

Browser-use:AI Agent 的"全能王"

Browser-use 是专门为 AI Agent 打造的浏览器自动化框架。它的核心理念是:让 AI Agent 像人一样操作浏览器,但效率高 100 倍

和其他方案最大的不同在于——Browser-use 不只是一个工具,它是一个完整的 AI Agent 浏览器自动化平台,支持本地隔离浏览器、真实 Chrome Profile、云端远程浏览器三种模式。

核心机制:State + Index

Browser-use 的交互模式也走"精简路线"。通过 state 命令获取页面可交互元素列表,每个元素分配一个数字索引(index),操作时只需引用索引号:

# 获取页面状态
browser-use state

# 输出示例:
# [0] link "首页"
# [1] link "产品"
# [2] input "搜索..."
# [3] button "登录"

# 用索引操作
browser-use click 3          # 点击"登录"
browser-use input 2 "iPhone"  # 在搜索框输入

和 Agent Browser 的 ref 机制类似,但 Browser-use 更进一步——会话在命令之间持久化,你不需要每次都重新打开浏览器。

三种浏览器模式

这是 Browser-use 最独特的地方:

模式命令参数特点适用场景
chromium-b chromium快速、隔离、默认无头自动化测试、数据采集
real-b real使用真实 Chrome,可加载 Profile需要登录态、插件、Cookie 的场景
remote-b remote云端托管浏览器,自带代理反爬绕过、并行任务、无本地依赖
# 隔离模式:快速、干净
browser-use -b chromium open https://example.com

# 真实浏览器:带着你的 Chrome Profile 一起用
browser-use -b real --profile "Default" open https://example.com

# 云端浏览器:不占本地资源,自带代理
browser-use -b remote open https://example.com

真实浏览器模式意味着你已登录的网站、安装的扩展、保存的密码,AI 都可以直接使用——无需额外配置登录态。

云端并行:Sub-Agent 能力

Browser-use 的云端模式支持异步任务和并行 Agent,这是其他方案完全不具备的能力:

# 启动一个云端任务(异步执行)
browser-use -b remote run "打开 example.com,提取所有产品价格"

# 同时启动多个任务
browser-use -b remote run "检查竞品 A 的定价" --session task-a
browser-use -b remote run "检查竞品 B 的定价" --session task-b
browser-use -b remote run "检查竞品 C 的定价" --session task-c

# 查看所有任务状态
browser-use task list

# 获取单个任务结果
browser-use task status --id <task-id>

想象一下:你让 AI 同时打开 10 个竞品网站,并行采集价格数据,几秒钟内全部完成。这是串行方案做不到的。

高级功能

除了基本的浏览器操作,Browser-use 还有一些"杀手级"特性:

功能说明
Python 执行内置 Python 会话,跨命令保持状态,可直接操作 browser 对象
Profile 同步在本地和云端之间同步 Cookie/Profile
Tunnel把本地 localhost:3000 暴露给云端浏览器(browser-use tunnel 3000
数据提取get text / get html / eval 直接获取页面数据
智能等待wait selector / wait text 等待特定元素或文本出现
会话管理命名 Session,多浏览器实例并行操作

诊断工具

安装后不确定配置对不对?Browser-use 提供了专属诊断命令:

browser-use doctor
# 自动检查:浏览器安装、依赖版本、网络连通性、云端 API 可用性

适用场景

场景示例指令
需要登录态的自动化“用我的 Chrome Profile 打开内部系统”
批量并行数据采集“同时爬取 10 个竞品的定价页面”
反爬场景“用云端浏览器+代理打开这个网站”
本地开发联调“把 localhost:3000 隧道到云端浏览器测试”
复杂 Python 脚本“用 Python 批量处理页面数据”

安装和使用

# 安装(需要 Python 环境)
pip install browser-use

# 诊断环境
browser-use doctor

# 开始使用
browser-use open https://example.com --headed

在 Claude Code 中,Browser-use 以 Skill 的方式接入,支持自然语言指挥:

"用 browser-use 打开 example.com,获取页面状态,点击登录按钮"

Agent Browser:快如闪电的"轻骑兵"

Agent Browser 是 Vercel 专门为 AI Agent 设计的浏览器自动化工具。它的核心设计理念是:用最少的信息,让 AI 理解网页

核心机制:Snapshot + Refs

传统方案会把整个网页的 DOM 树或可访问性树发给 AI,动辄几万 Token。Agent Browser 不这样做——它只发送一个精简的"快照",并给每个可交互元素分配一个简短的引用 ID(ref)。

# Agent Browser 的快照格式
- button "登录" [ref=e1]
- input "用户名" [ref=e2]
- input "密码" [ref=e3]
- link "忘记密码" [ref=e4]

AI 看到的就是这么简洁的结构。当它想点击"登录"按钮时,只需要说"点击 e1",而不需要理解复杂的 CSS 选择器或 XPath。

Token 消耗对比

操作传统方案Agent Browser
打开一个中等复杂的网页~15,000 tokens~1,000 tokens
填写一个表单~8,000 tokens~500 tokens
执行 10 步操作~100,000 tokens~7,000 tokens

减少 93% 的 Token 消耗,意味着:

  • 响应速度更快(AI 处理的信息更少)
  • 成本更低(按 Token 计费的话)
  • 更少触发上下文长度限制

适用场景

场景示例指令
浏览网页“帮我打开竞品官网看看”
截图对比“截个图看看改完的效果”
填写表单“把测试数据填进去”
信息采集“看看这个页面的定价”
简单操作“点一下那个按钮”

安装和使用

# 全局安装(推荐,性能最优)
npm install -g agent-browser

# 安装 Chromium 浏览器(首次安装必须执行)
agent-browser install

# 开始使用
agent-browser open https://example.com

# 也可以用 npx 免安装试用(但比全局安装慢)
npx agent-browser open https://example.com

在 Claude Code 中,Agent Browser 通常以 Skill 的方式接入,直接用自然语言指挥即可:

"用 Agent Browser 打开 https://example.com,截个图"

Playwright CLI:省 Token 的"特种部队"(2026 新方案)

Playwright CLI 是微软在 2026 年初推出的新一代浏览器自动化方案。如果说 Playwright MCP 是"重装步兵",那 CLI 就是为编程 Agent(Claude Code、Cursor、Copilot)量身定制的"特种部队"——同样的战斗力,但补给消耗大幅降低。

微软在 Playwright MCP 官方仓库中明确推荐:

“Modern coding agents increasingly favor CLI-based workflows exposed as SKILLs over MCP because CLI invocations are more token-efficient.”

现代编程 Agent 越来越倾向于使用 CLI 工作流(以 Skill 方式暴露),因为 CLI 调用的 Token 效率更高。

核心机制:数据存磁盘,不存上下文

Playwright CLI 和 MCP 最本质的区别在于数据的存放位置

Playwright MCP 的做法:
  网页快照 → 完整返回给 AI → 占用大量 Token
  截图 → 编码成数据返回 → 占用更多 Token
  Console 日志 → 每次都附带 → 持续消耗 Token

Playwright CLI 的做法:
  网页快照 → 保存为 YAML 文件 → AI 需要时才读取
  截图 → 保存为 PNG 文件 → AI 需要时才查看
  Console 日志 → 写入日志文件 → 按需检索

打个比方:MCP 就像一个话多的助手,每次汇报都把所有细节一股脑说完;CLI 就像一个高效的助手,只告诉你"报告写好了,放在桌上",你需要的时候自己去看。

Token 消耗对比:实测数据

场景Playwright MCPPlaywright CLI节省比例
单个页面快照~15,000 tokens~200 tokens(文件路径)98.7%
10 步自动化操作~114,000 tokens~27,000 tokens76.3%
含截图的测试流程~150,000 tokens~5,000 tokens96.7%
长时间会话(50+ 步)上下文溢出风险稳定运行质变

关键数据来自 TestCollabSupaTest 的独立测评。

为什么差距这么大?因为 MCP 每一步都会把完整的可访问性树、Console 消息塞进上下文;而 CLI 只返回一个文件路径和简短的执行确认。Token 省下来了,上下文窗口也不会被撑爆。

工作流示例

# 1. 打开页面
playwright-cli open https://example.com --headed

# 2. 获取页面快照(保存为 YAML 文件,不塞进上下文)
playwright-cli snapshot
# 输出:Snapshot saved to .playwright/snapshots/page-001.yaml
# 快照中每个元素都有引用 ID(如 e8, e21, e35)

# 3. 用引用 ID 操作元素(极其简洁)
playwright-cli fill e8 "[email protected]"
playwright-cli fill e12 "password123"
playwright-cli click e15

# 4. 截图验证(保存为文件,不转为 Token)
playwright-cli screenshot
# 输出:Screenshot saved to .playwright/screenshots/page-001.png

# 5. 保存登录状态(下次可复用)
playwright-cli state-save login-state.json

注意看——每条命令的响应都非常短(一个文件路径),而不是几千 Token 的 DOM 树。这就是 CLI 高效的秘密。

50+ 命令全覆盖

Playwright CLI 并不是"阉割版 MCP",它拥有完整的自动化能力:

类别命令说明
导航open, goto, go-back, reload页面跳转
交互click, fill, type, drag, hover元素操作
快照snapshot获取精简的页面结构
截图screenshot, pdf视觉验证和导出
状态state-save, state-load, cookie登录态管理
调试console, network, tracing, video开发调试
会话命名 Session多浏览器并行操作

适用场景

场景示例指令
长时间自动化任务“跑完这 50 个页面的截图对比”
代码内测试流程“测试登录→下单→支付全流程”
Token 预算有限“用最少的 Token 完成浏览器操作”
配合已有 Playwright 测试“在已有测试套件基础上补充 AI 驱动的测试”

安装和使用

# 安装
npm install -g @playwright/cli@latest

# 初始化(自动安装浏览器)
playwright-cli install

# 开始使用
playwright-cli open https://example.com --headed

在 Claude Code 中,Playwright CLI 通常以 Skill 的方式接入,而不是 MCP Server。这也是微软推荐的方式。

CLI vs MCP:到底选哪个?

微软自己的建议很直白:

条件选择
使用 Claude Code / Cursor / Copilot 等编程 AgentCLI(首选)
Agent 有文件系统和 Shell 访问权限CLI
长时间运行的自动化任务CLI
沙盒环境(无 Shell 权限)MCP
需要 MCP 协议标准(如通用 Agent 工作流)MCP

简单说:如果你在用 Claude Code,大多数情况下应该优先选 CLI。

Playwright MCP:稳如泰山的"重装步兵"

Playwright 是 Microsoft 开发的老牌浏览器自动化框架,被全球无数公司用于 E2E 测试。Playwright MCP 是它的 AI 扩展版,专门适配 Claude Code 等 AI 工具。

核心机制:Accessibility Tree(可访问性树)

Playwright 会把网页的完整可访问性树发送给 AI。这棵树包含了页面上所有元素的详细信息:角色、名称、状态、层级关系等。

# Playwright 的可访问性树片段
- document
  - navigation
    - link "首页"
    - link "产品"
    - link "关于我们"
  - main
    - heading "欢迎" [level=1]
    - form
      - textbox "用户名" [required]
      - textbox "密码" [required] [type=password]
      - button "登录"

信息更全面,但 Token 消耗也更高。

独特优势:跨浏览器 + 专业测试能力

Playwright 支持三大浏览器引擎:

  • Chromium(Chrome、Edge)
  • Firefox
  • WebKit(Safari)

这意味着你可以用同一套指令,测试你的网站在不同浏览器上的表现。

此外,Playwright 还有很多专业测试特性:

  • 自动等待:元素可交互后才操作,不怕页面加载慢
  • 网络拦截:可以 mock API 返回值
  • 多标签页管理:同时操控多个页面
  • 视频录制:自动录制操作过程

适用场景

场景示例指令
功能测试“测试一下登录流程”
用户旅程验证“跑一遍下单流程”
回归测试“确认修复没影响其他功能”
多步骤自动化“注册→登录→发帖→退出”
长时间稳定运行“这个脚本要跑很久”

安装和配置

// claude_desktop_config.json 或 settings.json
{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["@anthropic-ai/mcp-server-playwright"]
    }
  }
}

DevTools MCP:洞察秋毫的"侦察兵"

DevTools MCP 是 Google 官方出品,直接封装了 Chrome DevTools Protocol(CDP)。如果你用过 Chrome 的开发者工具(F12),你就知道它有多强大。

核心机制:Chrome DevTools Protocol

CDP 是 Chrome 浏览器的"后门",通过它可以访问浏览器的几乎所有内部信息:

  • Console 输出
  • Network 请求和响应
  • DOM 结构和样式
  • JavaScript 执行环境
  • 性能指标

DevTools MCP 把这些能力暴露给 AI,让 AI 成为你的"高级调试助手"。

独特优势:调试能力无敌

其他两个方案侧重于"操作"浏览器,DevTools MCP 侧重于"理解"浏览器内部发生了什么。

你说:"页面白屏了,帮我查查原因"

DevTools MCP 会:
1. 检查 Console 有没有报错
2. 查看 Network 请求是否失败
3. 分析 JavaScript 执行是否有异常
4. 检查关键元素是否正常渲染
5. 给出诊断结论

这是其他方案做不到的。

适用场景

场景示例指令
查看 Console 报错“页面白屏了,帮我查查”
网络请求调试“API 返回了什么”
性能分析“页面加载太慢了”
CSS/DOM 检查“样式为什么不对”
断点调试“帮我看这个变量的值”

安装和配置

DevTools MCP 需要配合 Chrome 扩展使用:

  1. 安装 MCP Server:
{
  "mcpServers": {
    "devtools": {
      "command": "npx",
      "args": ["@anthropic-ai/mcp-server-chrome-devtools"]
    }
  }
}
  1. 在 Chrome 中安装配套扩展(从 Chrome Web Store)

  2. 启动 Chrome 时开启远程调试:

# macOS
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222

# Windows
chrome.exe --remote-debugging-port=9222

四、实战选择指南

场景一:我就想让 AI 帮我看看网页

推荐:Agent Browser

你只是想让 AI 打开某个网页、截个图、看看内容,不需要复杂操作。Agent Browser 最快、最省 Token。

"帮我打开 competitor.com,看看他们的定价页面"
"截个图给我看看首页长什么样"
"这个表单能不能正常显示"

场景二:我需要带登录态的自动化、或者并行采集数据

推荐:Browser-use

需要用真实 Chrome Profile(已登录的账号、已安装的扩展),或者要同时对多个网站执行任务?Browser-use 是唯一支持三种浏览器模式 + 云端并行的方案。

"用我的 Chrome Profile 打开公司内部系统,导出月度报表"
"同时打开 10 个竞品网站,采集他们的定价信息"
"用云端浏览器+代理打开这个被封的网站"

场景三:我需要测试复杂的用户流程

推荐:Playwright CLI(如果你在用 Claude Code)/ Playwright MCP(如果在沙盒环境)

注册、登录、下单、支付、退出——这种多步骤流程需要稳定可靠的执行。2026 年的新推荐是 Playwright CLI——它拥有和 MCP 相同的 Playwright 底层能力,但 Token 消耗低 4 倍以上,长流程中不会撑爆上下文。

"用 Playwright CLI 测试用户注册流程:填写表单→验证邮箱→完善资料→跳转到主页"
"跑一遍完整的下单流程,截图保存每一步的结果"

如果你的 Agent 没有 Shell 权限(如浏览器内的 AI 助手),那仍然选 Playwright MCP。

场景四:我的页面有 Bug,需要排查

推荐:DevTools MCP

页面白屏、接口报错、样式错乱——这些问题需要深入浏览器内部才能定位。DevTools MCP 是唯一能直接访问 Console、Network、DOM 的方案。

"页面打开后一直在转圈,帮我看看是哪个接口卡住了"
"这个按钮点击后没反应,帮我查查有没有 JS 报错"

场景五:我的项目需要长时间、大量浏览器操作

推荐:Playwright CLI

如果你的任务涉及 50+ 步的浏览器操作(比如批量测试、大规模数据采集),Playwright MCP 的上下文会逐步膨胀直到溢出。CLI 的"数据存磁盘"架构天然适合长时间运行。

"依次打开这 100 个 URL,对每个页面执行快照→检查元素→截图,结果存到 results 目录"

场景六:我需要同时具备多种能力

可以组合使用!

四个方案并不互斥,你完全可以同时配置,让 AI 根据任务自动选择最合适的工具。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["@playwright/mcp@latest"]
    },
    "devtools": {
      "command": "npx",
      "args": ["@anthropic-ai/mcp-server-chrome-devtools"]
    }
  }
}

再加上 Agent Browser、Playwright CLI 和 Browser-use 的 Skill,你就拥有了完整的浏览器自动化能力矩阵。推荐组合:日常浏览用 Agent Browser,需要登录态/并行用 Browser-use,测试用 Playwright CLI,调试用 DevTools MCP。

五、进阶技巧

1. 保存登录状态

很多网站需要登录才能访问,每次都手动登录很麻烦。你可以让 AI 保存 Cookie:

"用 Agent Browser 打开 xxx.com,让我登录,然后保存登录信息"

下次访问时,AI 会自动加载之前保存的 Cookie,无需重新登录。

2. 无头模式

如果你不需要看到浏览器界面(比如在服务器上运行),可以使用无头模式:

"用 Playwright 在无头模式下测试登录流程"

3. 截图对比

开发前端时,经常需要对比修改前后的效果。可以这样做:

"截图保存为 before.png"
# 修改代码
"再截一张图保存为 after.png,然后对比两张图的差异"

4. 批量操作

需要对多个页面执行相同操作时:

"依次打开这 10 个 URL,截图保存到 screenshots 文件夹"

六、常见问题

Q1:为什么我的 Playwright MCP 连接不上?

检查几个常见问题:

  1. 确保已安装 Node.js 18+
  2. 确保 MCP Server 配置正确
  3. 尝试手动运行 npx @anthropic-ai/mcp-server-playwright 看报错

Q2:DevTools MCP 提示"无法连接到 Chrome"?

确保:

  1. Chrome 已启动并开启了远程调试端口(9222)
  2. 没有其他程序占用该端口
  3. Chrome 扩展已安装并启用

Q3:Agent Browser 截图是空白的?

可能是页面还没加载完。尝试:

"打开页面后等待 3 秒再截图"

Q4:哪个方案最稳定?

如果追求稳定性,Playwright MCP 是最佳选择。它有完善的等待机制和错误处理,是生产级的自动化框架。

Q5:Token 真的差这么多吗?

是的。在实际测试中,执行相同的 10 步操作:

  • Playwright MCP:约 114,000 tokens
  • DevTools MCP:约 50,000 tokens
  • Playwright CLI:约 27,000 tokens
  • Agent Browser:约 7,000 tokens

差距确实很大。特别是 Playwright CLI 相比同门的 MCP 版本,Token 消耗降低了约 4 倍,这在长时间运行的自动化任务中是质的区别——MCP 可能跑到一半上下文就溢出了,CLI 却能稳定跑完。

Q6:Playwright CLI 和 MCP 可以同时装吗?

可以。CLI 以 Shell 命令方式工作,MCP 以 MCP Server 方式工作,两者不冲突。你甚至可以让 AI 在简单操作时用 CLI(省 Token),在需要完整可访问性树分析时切换到 MCP。

总结

如果你需要…选择
快速浏览、截图、简单操作Agent Browser
带登录态/并行采集/反爬绕过Browser-use
用 Claude Code 跑测试和自动化Playwright CLI(2026 首选)
在沙盒环境中做浏览器自动化Playwright MCP
调试排错、性能分析、查看网络请求DevTools MCP
全都要五个一起配置,AI 会自动选择

记住这个口诀:

  • 看看、填表 → Agent Browser
  • 登录态、并行、反爬Browser-use
  • 测试、跑流程(有 Shell 权限)→ Playwright CLI
  • 测试、跑流程(沙盒环境)→ Playwright MCP
  • 调试、抓请求 → DevTools MCP

2026 年的建议:如果你只装一个,装 Browser-use——它兼顾了三种浏览器模式、会话持久化和云端并行能力,是 AI Agent 浏览器自动化的最全面选择。如果你更侧重编程测试场景,选 Playwright CLI。如果你想要最省 Token 的日常浏览体验,再加一个 Agent Browser。

现在,去让你的 AI 助手真正"动起来"吧!

相关阅读


参考资料

Comments

Join the discussion — requires a GitHub account