装好 agent-browser,让 AI 帮你操作浏览器

lxiol
📝
读完上一篇,你知道 agent-browser 是什么了。这篇带你装好它,跑通第一个操作。跟着做,十分钟搞定。

原文链接:https://mp.weixin.qq.com/s/8Gu_BZoHA7mz3xqpHpvbeA

读完上一篇,你知道 agent-browser 是什么了。这篇带你装好它,跑通第一个操作。跟着做,十分钟搞定。

读完上一篇,你知道 agent-browser 是什么了。这篇带你装好它,跑通第一个操作。

跟着做,十分钟搞定。

你需要准备的:

  • 一台 Mac 或 Linux 电脑(Windows 用 WSL)
  • Node.js 18 以上(终端输入 node -v 检查)
  • 一个 AI 编程助手:Claude Code、Cursor、Codex 都行

准备阶段

第一步:安装 agent-browser

打开终端,输入:

1
`npm install -g agent-browser`

装完后,下载 Chrome 浏览器引擎:

1
`agent-browser install`

Linux 用户多跑一步,装系统依赖:

1
`agent-browser install --with-deps`

做对了的标志:输入 agent-browser --help,能看到一长串命令列表。

第二步:给你的 AI 助手装上 skill

在你的项目目录下运行:

1
`npx skills add vercel-labs/agent-browser`

这会在项目里添加一个 skill 文件,告诉 AI 助手怎么使用 agent-browser。

做对了的标志:项目目录下多了 .claude/skills/agent-browser/ 文件夹(Claude Code 的情况)。

第三步:检查安装是否正常

1
`agent-browser doctor`

它会自动检查 Chrome 安装、守护进程状态、配置文件。全绿就没问题。

有报错的话:

1
`agent-browser doctor --fix`

自动修复。

核心阶段

第四步:跑通第一个操作

打开一个网页:

1
`agent-browser open https://example.com`

拿到页面上所有可交互元素:

1
`agent-browser snapshot -i`

你会看到类似这样的输出:

1
2
`- heading "Example Domain" [ref=e1] [level=1]
- link "More information..." [ref=e2]`

点击那个链接:

1
`agent-browser click @e2`

截个图看看结果:

1
`agent-browser screenshot result.png`

关掉浏览器:

1
`agent-browser close`

做对了的标志:result.png 里是点击后的页面。

第五步:让 AI 来操作

打开你的 AI 助手,直接说:

1
`用 agent-browser 打开 https://news.ycombinator.com,截个图给我看看首页`

AI 会自己调用 agent-browser 的命令完成操作。

你也可以说更复杂的:

1
`用 agent-browser 打开 GitHub trending 页面,把今天排名前五的项目名称和星数抓下来`

进阶阶段

第六步:保存登录状态

每次都要重新登录很烦。用 --session-name 自动保存:

1
`agent-browser --session-name github open https://github.com`

第一次手动登录后,下次再用同一个 session name,登录状态还在。

或者直接复用你本地 Chrome 的登录:

1
`agent-browser --profile Default open https://github.com`

第七步:试试 Lightpanda 引擎

如果你的场景是批量抓内容,不需要截图,可以切到 Lightpanda:

1
2
`agent-browser --engine lightpanda open https://example.com
agent-browser snapshot -i`

速度会快很多,内存占用也小得多。

Lightpanda 还是 Beta。复杂网站可能报错。报错了换回 Chrome 就行。

完整流程一览

第一次做的建议

  • 先拿 example.com 练手。它简单,不会被反爬拦截
  • 第四步最容易卡。如果 snapshot 没输出,跑一下 agent-browser doctor --fix
  • 第五步最容易被跳过,但它才是重点。装 agent-browser 不是为了你自己敲命令,是为了让 AI 替你敲

容易踩的坑

坑一:snapshot 返回空白

网页还没加载完就 snapshot 了。在 open 和 snapshot 之间加一句:

1
`agent-browser wait --load networkidle`

坑二:登录状态丢失

没用 --session-name 或 --profile。默认每次都是全新环境。像每次都开无痕模式。

坑三:网站拦截无头浏览器

有些网站检测到无头模式会拦截。加 --headed 打开可见窗口:

1
`agent-browser open https://example.com --headed`

坑四:Linux 上 Chrome 启动失败

缺系统依赖。跑一下 agent-browser install --with-deps 就好。

装好了。

从现在开始,你可以跟 AI 说「帮我打开这个网站,点那个按钮,填这个表单」。

它真的会去做。

参考资料:

  • agent-browser GitHub 仓库[1]
  • agent-browser 安装文档[2]
  • Lightpanda Browser[3]

Reference

[1] 
agent-browser GitHub 仓库: https://github.com/vercel-labs/agent-browser
[2] 
agent-browser 安装文档: https://github.com/vercel-labs/agent-browser[#installation]()
[3] 
Lightpanda Browser: https://github.com/lightpanda-io/browser


下方是赋能君的AI学习交流永久免费星球,想学习更多内容,欢迎扫码加入。


🙌 如果你阅读到这里,说明我们对信息的认可区域是有一定交集的,可以说我们是同道中人,所以如果你有自认为不错的信息获取渠道,欢迎留言或者私聊我,谢谢。

都看到这里了,就给个关注吧👀:

喜欢我的文章,可以请你右下角顺手来一波点赞&在看&分享三连么👉


💬 本文评论区已开启,但暂无读者留言。

本文转载自微信公众号,如有侵权请联系删除。

  • 标题: 装好 agent-browser,让 AI 帮你操作浏览器
  • 作者: lxiol
  • 创建于 : 2026-05-08 21:51:17
  • 更新于 : 2026-05-12 16:32:44
  • 链接: https://blog.lxiol.cn/2026/05/08/装好-agent-browser让-AI-帮你操作浏览器/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
目录
装好 agent-browser,让 AI 帮你操作浏览器