Jan 28, 2026

Claude Code 浏览器自动化怎么选？(2026最新)4 套方案实测对比（Agent Browser vs Playwright CLI/MCP vs DevTools）

Agent Browser vs Playwright CLI vs Playwright MCP vs DevTools MCP，实测 Token 消耗差 10 倍+。本文对比速度、成本、稳定性，附安装命令和选型结论，帮你选对方案。

Claude Code浏览器自动化MCPPlaywright CLIPlaywright MCPAgent Browser

1229 Words

2026-01-28 15:55 +0000

用 AI 写代码已经不稀奇了，但让 AI 操控浏览器——打开网页、点击按钮、填写表单、抓取数据——这才是真正的"解放双手"。

在 Claude Code 生态中，目前有四个主流的浏览器自动化方案：Vercel 的 Agent Browser、Microsoft 的 Playwright CLI（2026 新方案）、Microsoft 的 Playwright MCP、Google 的 DevTools MCP。它们各有所长，选错了可能事倍功半。

本文将深入对比这四个方案，帮你在不同场景下做出最佳选择。

2026-02 更新：新增 Playwright CLI 方案——微软官方推荐的新一代 Token 高效方案，实测 Token 消耗比 MCP 降低 4-100 倍。

一、为什么需要浏览器自动化？

传统方式的痛点

假设你想让 AI 帮你做这些事：

打开竞品网站，截图看看他们的新功能
自动登录公司内部系统，导出报表
测试你刚写的网页，看看表单能不能正常提交
抓取某个页面的 API 返回值，排查 Bug

如果没有浏览器自动化，你只能：

自己手动打开浏览器
截图或复制内容
粘贴给 AI 看

这不仅麻烦，而且很多动态内容（如需要登录的页面、JavaScript 渲染的内容）根本没法直接给 AI。

浏览器自动化的价值

有了浏览器自动化，AI 可以：

你说："帮我打开淘宝，搜索 iPhone 16，看看前 5 个商家的价格"

AI 做：
1. 启动浏览器
2. 打开 taobao.com
3. 在搜索框输入 "iPhone 16"
4. 点击搜索按钮
5. 读取前 5 个商品的价格
6. 整理成表格返回给你

整个过程你只需要一句话，AI 全程自动完成。

二、四大方案速览

在深入对比之前，先看一张总览表：

维度	Agent Browser	Playwright CLI	Playwright MCP	DevTools MCP
开发者	Vercel Labs	Microsoft	Microsoft	Google
定位	AI Agent 专用轻量工具	编程 Agent 高效自动化	通用浏览器自动化	Chrome 调试协议封装
接入方式	Bash CLI / Skill	Shell 命令 / Skill	MCP Server	MCP Server + 扩展
Token 消耗	极低（减少 93%）	极低（减少 75-99%）	较高	中等
浏览器支持	Chromium	Chrome/Firefox/WebKit	Chrome/Firefox/WebKit	仅 Chrome
核心优势	快、省 Token	省 Token + 跨浏览器	稳定、功能全	调试能力强

一句话总结：

Agent Browser：轻量快速，日常浏览首选
Playwright CLI：Token 高效 + 专业能力，编程 Agent 新首选
Playwright MCP：功能最全，非 CLI 环境的稳定选择
DevTools MCP：调试利器，开发排错首选

三、深入对比：各有什么绝活？

Agent Browser：快如闪电的"轻骑兵"

Agent Browser 是 Vercel 专门为 AI Agent 设计的浏览器自动化工具。它的核心设计理念是：用最少的信息，让 AI 理解网页。

核心机制：Snapshot + Refs

传统方案会把整个网页的 DOM 树或可访问性树发给 AI，动辄几万 Token。Agent Browser 不这样做——它只发送一个精简的"快照"，并给每个可交互元素分配一个简短的引用 ID（ref）。

# Agent Browser 的快照格式
- button "登录" [ref=e1]
- input "用户名" [ref=e2]
- input "密码" [ref=e3]
- link "忘记密码" [ref=e4]

AI 看到的就是这么简洁的结构。当它想点击"登录"按钮时，只需要说"点击 e1"，而不需要理解复杂的 CSS 选择器或 XPath。

Token 消耗对比

操作	传统方案	Agent Browser
打开一个中等复杂的网页	~15,000 tokens	~1,000 tokens
填写一个表单	~8,000 tokens	~500 tokens
执行 10 步操作	~100,000 tokens	~7,000 tokens

减少 93% 的 Token 消耗，意味着：

响应速度更快（AI 处理的信息更少）
成本更低（按 Token 计费的话）
更少触发上下文长度限制

适用场景

场景	示例指令
浏览网页	“帮我打开竞品官网看看”
截图对比	“截个图看看改完的效果”
填写表单	“把测试数据填进去”
信息采集	“看看这个页面的定价”
简单操作	“点一下那个按钮”

安装和使用

# 全局安装（推荐，性能最优）
npm install -g agent-browser

# 安装 Chromium 浏览器（首次安装必须执行）
agent-browser install

# 开始使用
agent-browser open https://example.com

# 也可以用 npx 免安装试用（但比全局安装慢）
npx agent-browser open https://example.com

在 Claude Code 中，Agent Browser 通常以 Skill 的方式接入，直接用自然语言指挥即可：

"用 Agent Browser 打开 https://example.com，截个图"

Playwright CLI：省 Token 的"特种部队"（2026 新方案）

Playwright CLI 是微软在 2026 年初推出的新一代浏览器自动化方案。如果说 Playwright MCP 是"重装步兵"，那 CLI 就是为编程 Agent（Claude Code、Cursor、Copilot）量身定制的"特种部队"——同样的战斗力，但补给消耗大幅降低。

微软在 Playwright MCP 官方仓库中明确推荐：

“Modern coding agents increasingly favor CLI-based workflows exposed as SKILLs over MCP because CLI invocations are more token-efficient.”
现代编程 Agent 越来越倾向于使用 CLI 工作流（以 Skill 方式暴露），因为 CLI 调用的 Token 效率更高。

核心机制：数据存磁盘，不存上下文

Playwright CLI 和 MCP 最本质的区别在于数据的存放位置：

Playwright MCP 的做法：
  网页快照 → 完整返回给 AI → 占用大量 Token
  截图 → 编码成数据返回 → 占用更多 Token
  Console 日志 → 每次都附带 → 持续消耗 Token

Playwright CLI 的做法：
  网页快照 → 保存为 YAML 文件 → AI 需要时才读取
  截图 → 保存为 PNG 文件 → AI 需要时才查看
  Console 日志 → 写入日志文件 → 按需检索

打个比方：MCP 就像一个话多的助手，每次汇报都把所有细节一股脑说完；CLI 就像一个高效的助手，只告诉你"报告写好了，放在桌上"，你需要的时候自己去看。

Token 消耗对比：实测数据

场景	Playwright MCP	Playwright CLI	节省比例
单个页面快照	~15,000 tokens	~200 tokens（文件路径）	98.7%
10 步自动化操作	~114,000 tokens	~27,000 tokens	76.3%
含截图的测试流程	~150,000 tokens	~5,000 tokens	96.7%
长时间会话（50+ 步）	上下文溢出风险	稳定运行	质变

关键数据来自 TestCollab 和 SupaTest 的独立测评。

为什么差距这么大？因为 MCP 每一步都会把完整的可访问性树、Console 消息塞进上下文；而 CLI 只返回一个文件路径和简短的执行确认。Token 省下来了，上下文窗口也不会被撑爆。

工作流示例

# 1. 打开页面
playwright-cli open https://example.com --headed

# 2. 获取页面快照（保存为 YAML 文件，不塞进上下文）
playwright-cli snapshot
# 输出：Snapshot saved to .playwright/snapshots/page-001.yaml
# 快照中每个元素都有引用 ID（如 e8, e21, e35）

# 3. 用引用 ID 操作元素（极其简洁）
playwright-cli fill e8 "[email protected]"
playwright-cli fill e12 "password123"
playwright-cli click e15

# 4. 截图验证（保存为文件，不转为 Token）
playwright-cli screenshot
# 输出：Screenshot saved to .playwright/screenshots/page-001.png

# 5. 保存登录状态（下次可复用）
playwright-cli state-save login-state.json

注意看——每条命令的响应都非常短（一个文件路径），而不是几千 Token 的 DOM 树。这就是 CLI 高效的秘密。

50+ 命令全覆盖

Playwright CLI 并不是"阉割版 MCP"，它拥有完整的自动化能力：

类别	命令	说明
导航	`open`, `goto`, `go-back`, `reload`	页面跳转
交互	`click`, `fill`, `type`, `drag`, `hover`	元素操作
快照	`snapshot`	获取精简的页面结构
截图	`screenshot`, `pdf`	视觉验证和导出
状态	`state-save`, `state-load`, `cookie`	登录态管理
调试	`console`, `network`, `tracing`, `video`	开发调试
会话	命名 Session	多浏览器并行操作

适用场景

场景	示例指令
长时间自动化任务	“跑完这 50 个页面的截图对比”
代码内测试流程	“测试登录→下单→支付全流程”
Token 预算有限	“用最少的 Token 完成浏览器操作”
配合已有 Playwright 测试	“在已有测试套件基础上补充 AI 驱动的测试”

安装和使用

# 安装
npm install -g @playwright/cli@latest

# 初始化（自动安装浏览器）
playwright-cli install

# 开始使用
playwright-cli open https://example.com --headed

在 Claude Code 中，Playwright CLI 通常以 Skill 的方式接入，而不是 MCP Server。这也是微软推荐的方式。

CLI vs MCP：到底选哪个？

微软自己的建议很直白：

条件	选择
使用 Claude Code / Cursor / Copilot 等编程 Agent	CLI（首选）
Agent 有文件系统和 Shell 访问权限	CLI
长时间运行的自动化任务	CLI
沙盒环境（无 Shell 权限）	MCP
需要 MCP 协议标准（如通用 Agent 工作流）	MCP

简单说：如果你在用 Claude Code，大多数情况下应该优先选 CLI。

Playwright MCP：稳如泰山的"重装步兵"

Playwright 是 Microsoft 开发的老牌浏览器自动化框架，被全球无数公司用于 E2E 测试。Playwright MCP 是它的 AI 扩展版，专门适配 Claude Code 等 AI 工具。

核心机制：Accessibility Tree（可访问性树）

Playwright 会把网页的完整可访问性树发送给 AI。这棵树包含了页面上所有元素的详细信息：角色、名称、状态、层级关系等。

# Playwright 的可访问性树片段
- document
  - navigation
    - link "首页"
    - link "产品"
    - link "关于我们"
  - main
    - heading "欢迎" [level=1]
    - form
      - textbox "用户名" [required]
      - textbox "密码" [required] [type=password]
      - button "登录"

信息更全面，但 Token 消耗也更高。

独特优势：跨浏览器 + 专业测试能力

Playwright 支持三大浏览器引擎：

Chromium（Chrome、Edge）
Firefox
WebKit（Safari）

这意味着你可以用同一套指令，测试你的网站在不同浏览器上的表现。

此外，Playwright 还有很多专业测试特性：

自动等待：元素可交互后才操作，不怕页面加载慢
网络拦截：可以 mock API 返回值
多标签页管理：同时操控多个页面
视频录制：自动录制操作过程

适用场景

场景	示例指令
功能测试	“测试一下登录流程”
用户旅程验证	“跑一遍下单流程”
回归测试	“确认修复没影响其他功能”
多步骤自动化	“注册→登录→发帖→退出”
长时间稳定运行	“这个脚本要跑很久”

安装和配置

// claude_desktop_config.json 或 settings.json
{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["@anthropic-ai/mcp-server-playwright"]
    }
  }
}

DevTools MCP：洞察秋毫的"侦察兵"

DevTools MCP 是 Google 官方出品，直接封装了 Chrome DevTools Protocol（CDP）。如果你用过 Chrome 的开发者工具（F12），你就知道它有多强大。

核心机制：Chrome DevTools Protocol

CDP 是 Chrome 浏览器的"后门"，通过它可以访问浏览器的几乎所有内部信息：

Console 输出
Network 请求和响应
DOM 结构和样式
JavaScript 执行环境
性能指标
…

DevTools MCP 把这些能力暴露给 AI，让 AI 成为你的"高级调试助手"。

独特优势：调试能力无敌

其他两个方案侧重于"操作"浏览器，DevTools MCP 侧重于"理解"浏览器内部发生了什么。

你说："页面白屏了，帮我查查原因"

DevTools MCP 会：
1. 检查 Console 有没有报错
2. 查看 Network 请求是否失败
3. 分析 JavaScript 执行是否有异常
4. 检查关键元素是否正常渲染
5. 给出诊断结论

这是其他方案做不到的。

适用场景

场景	示例指令
查看 Console 报错	“页面白屏了，帮我查查”
网络请求调试	“API 返回了什么”
性能分析	“页面加载太慢了”
CSS/DOM 检查	“样式为什么不对”
断点调试	“帮我看这个变量的值”

安装和配置

DevTools MCP 需要配合 Chrome 扩展使用：

安装 MCP Server：

{
  "mcpServers": {
    "devtools": {
      "command": "npx",
      "args": ["@anthropic-ai/mcp-server-chrome-devtools"]
    }
  }
}

在 Chrome 中安装配套扩展（从 Chrome Web Store）
启动 Chrome 时开启远程调试：

# macOS
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222

# Windows
chrome.exe --remote-debugging-port=9222

四、实战选择指南

场景一：我就想让 AI 帮我看看网页

推荐：Agent Browser

你只是想让 AI 打开某个网页、截个图、看看内容，不需要复杂操作。Agent Browser 最快、最省 Token。

"帮我打开 competitor.com，看看他们的定价页面"
"截个图给我看看首页长什么样"
"这个表单能不能正常显示"

场景二：我需要测试复杂的用户流程

推荐：Playwright CLI（如果你在用 Claude Code）/ Playwright MCP（如果在沙盒环境）

注册、登录、下单、支付、退出——这种多步骤流程需要稳定可靠的执行。2026 年的新推荐是 Playwright CLI——它拥有和 MCP 相同的 Playwright 底层能力，但 Token 消耗低 4 倍以上，长流程中不会撑爆上下文。

"用 Playwright CLI 测试用户注册流程：填写表单→验证邮箱→完善资料→跳转到主页"
"跑一遍完整的下单流程，截图保存每一步的结果"

如果你的 Agent 没有 Shell 权限（如浏览器内的 AI 助手），那仍然选 Playwright MCP。

场景三：我的页面有 Bug，需要排查

推荐：DevTools MCP

页面白屏、接口报错、样式错乱——这些问题需要深入浏览器内部才能定位。DevTools MCP 是唯一能直接访问 Console、Network、DOM 的方案。

"页面打开后一直在转圈，帮我看看是哪个接口卡住了"
"这个按钮点击后没反应，帮我查查有没有 JS 报错"

场景四：我的项目需要长时间、大量浏览器操作

推荐：Playwright CLI

如果你的任务涉及 50+ 步的浏览器操作（比如批量测试、大规模数据采集），Playwright MCP 的上下文会逐步膨胀直到溢出。CLI 的"数据存磁盘"架构天然适合长时间运行。

"依次打开这 100 个 URL，对每个页面执行快照→检查元素→截图，结果存到 results 目录"

场景五：我需要同时具备多种能力

可以组合使用！

四个方案并不互斥，你完全可以同时配置，让 AI 根据任务自动选择最合适的工具。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["@playwright/mcp@latest"]
    },
    "devtools": {
      "command": "npx",
      "args": ["@anthropic-ai/mcp-server-chrome-devtools"]
    }
  }
}

再加上 Agent Browser 和 Playwright CLI 的 Skill，你就拥有了完整的浏览器自动化能力矩阵。推荐组合：日常用 Agent Browser，测试用 Playwright CLI，调试用 DevTools MCP。

五、进阶技巧

1. 保存登录状态

很多网站需要登录才能访问，每次都手动登录很麻烦。你可以让 AI 保存 Cookie：

"用 Agent Browser 打开 xxx.com，让我登录，然后保存登录信息"

下次访问时，AI 会自动加载之前保存的 Cookie，无需重新登录。

2. 无头模式

如果你不需要看到浏览器界面（比如在服务器上运行），可以使用无头模式：

"用 Playwright 在无头模式下测试登录流程"

3. 截图对比

开发前端时，经常需要对比修改前后的效果。可以这样做：

"截图保存为 before.png"
# 修改代码
"再截一张图保存为 after.png，然后对比两张图的差异"

4. 批量操作

需要对多个页面执行相同操作时：

"依次打开这 10 个 URL，截图保存到 screenshots 文件夹"

六、常见问题

Q1：为什么我的 Playwright MCP 连接不上？

检查几个常见问题：

确保已安装 Node.js 18+
确保 MCP Server 配置正确
尝试手动运行 npx @anthropic-ai/mcp-server-playwright 看报错

Q2：DevTools MCP 提示"无法连接到 Chrome"？

确保：

Chrome 已启动并开启了远程调试端口（9222）
没有其他程序占用该端口
Chrome 扩展已安装并启用

Q3：Agent Browser 截图是空白的？

可能是页面还没加载完。尝试：

"打开页面后等待 3 秒再截图"

Q4：哪个方案最稳定？

如果追求稳定性，Playwright MCP 是最佳选择。它有完善的等待机制和错误处理，是生产级的自动化框架。

Q5：Token 真的差这么多吗？

是的。在实际测试中，执行相同的 10 步操作：

Playwright MCP：约 114,000 tokens
DevTools MCP：约 50,000 tokens
Playwright CLI：约 27,000 tokens
Agent Browser：约 7,000 tokens

差距确实很大。特别是 Playwright CLI 相比同门的 MCP 版本，Token 消耗降低了约 4 倍，这在长时间运行的自动化任务中是质的区别——MCP 可能跑到一半上下文就溢出了，CLI 却能稳定跑完。

Q6：Playwright CLI 和 MCP 可以同时装吗？

可以。CLI 以 Shell 命令方式工作，MCP 以 MCP Server 方式工作，两者不冲突。你甚至可以让 AI 在简单操作时用 CLI（省 Token），在需要完整可访问性树分析时切换到 MCP。

总结

如果你需要…	选择
快速浏览、截图、简单操作	Agent Browser
用 Claude Code 跑测试和自动化	Playwright CLI（2026 首选）
在沙盒环境中做浏览器自动化	Playwright MCP
调试排错、性能分析、查看网络请求	DevTools MCP
全都要	四个一起配置，AI 会自动选择

记住这个口诀：

看看、填表 → Agent Browser
测试、跑流程（有 Shell 权限）→ Playwright CLI
测试、跑流程（沙盒环境）→ Playwright MCP
调试、抓请求 → DevTools MCP

2026 年的建议：如果你只装一个，装 Playwright CLI——它兼顾了 Token 效率和专业能力，是编程 Agent 的最佳默认选择。如果你想要最省 Token 的日常浏览体验，再加一个 Agent Browser。

现在，去让你的 AI 助手真正"动起来"吧！

一、为什么需要浏览器自动化？

传统方式的痛点

浏览器自动化的价值

二、四大方案速览

三、深入对比：各有什么绝活？

Agent Browser：快如闪电的"轻骑兵"

核心机制：Snapshot + Refs

Token 消耗对比

适用场景

安装和使用

Playwright CLI：省 Token 的"特种部队"（2026 新方案）

核心机制：数据存磁盘，不存上下文

Token 消耗对比：实测数据

工作流示例

50+ 命令全覆盖

适用场景

安装和使用

CLI vs MCP：到底选哪个？

Playwright MCP：稳如泰山的"重装步兵"

核心机制：Accessibility Tree（可访问性树）

独特优势：跨浏览器 + 专业测试能力

适用场景

安装和配置

DevTools MCP：洞察秋毫的"侦察兵"

核心机制：Chrome DevTools Protocol

独特优势：调试能力无敌

适用场景

安装和配置

四、实战选择指南

场景一：我就想让 AI 帮我看看网页

场景二：我需要测试复杂的用户流程

场景三：我的页面有 Bug，需要排查

场景四：我的项目需要长时间、大量浏览器操作

场景五：我需要同时具备多种能力

五、进阶技巧

1. 保存登录状态

2. 无头模式

3. 截图对比

4. 批量操作

六、常见问题

Q1：为什么我的 Playwright MCP 连接不上？

Q2：DevTools MCP 提示"无法连接到 Chrome"？

Q3：Agent Browser 截图是空白的？

Q4：哪个方案最稳定？

Q5：Token 真的差这么多吗？

Q6：Playwright CLI 和 MCP 可以同时装吗？

总结

相关阅读

相关阅读 / Related