🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx @anthropic-ai/skills install supercent-io/skills-template/agent-browser

💡 提示:需要 Node.js 和 NPM

agent-browser – 面向 AI 代理的浏览器自动化

何时使用此技能

  • 打开网站并自动化 UI 操作
  • 填写表单、点击控件并验证结果
  • 捕获截图/PDF 或提取内容
  • 使用可访问性引用运行确定性的网页检查
  • 通过隔离的会话执行并行的浏览器任务

核心工作流

始终使用确定性的引用循环:

  1. agent-browser open <url>
  2. agent-browser snapshot -i
  3. 与引用交互(@e1@e2、…)
  4. 页面/DOM 变化后再次运行 agent-browser snapshot -i
agent-browser open https://example.com/form
agent-browser wait --load networkidle
agent-browser snapshot -i
agent-browser fill @e1 "user@example.com"
agent-browser click @e2
agent-browser snapshot -i

命令模式

当不需要中间输出时,使用 && 进行链式调用。

# 好的链式调用:打开 -> 等待 -> 快照
agent-browser open https://example.com && agent-browser wait --load networkidle && agent-browser snapshot -i

# 当需要先获取输出时,分开调用
agent-browser snapshot -i
# 解析引用
agent-browser click @e2

高价值命令:

  • 导航:openclose
  • 快照:snapshot -isnapshot -i -Csnapshot -s "#选择器"
  • 交互:clickfilltypeselectcheckpress
  • 验证:diff snapshotdiff screenshot --baseline <文件>
  • 捕获:screenshotscreenshot --annotatepdf
  • 等待:wait --load networkidlewait <选择器|@引用|毫秒>

验证模式

在操作后使用明确的证据。

# 基准 -> 操作 -> 验证结构
agent-browser snapshot -i
agent-browser click @e3
agent-browser diff snapshot

# 视觉回归测试
agent-browser screenshot baseline.png
agent-browser click @e5
agent-browser diff screenshot --baseline baseline.png

安全与可靠性

  • 导航或重大的 DOM 更新后,引用会失效;在进行下一个操作前重新获取快照。
  • 优先使用 wait --load networkidle 或选择器/@引用等待,而不是固定的休眠时间。
  • 对于多步骤的 JavaScript,使用 eval --stdin(或 base64)来避免 shell 转义导致的问题。
  • 对于并发任务,使用 --session <名称> 进行隔离。
  • 在长页面中使用输出控制,以减少上下文信息泛滥。
  • 在敏感流程中,可选择使用域名白名单和操作策略进行加固。

可选的加固示例:

# 用边界包裹页面内容,降低提示注入风险
export AGENT_BROWSER_CONTENT_BOUNDARIES=1

# 限制长页面的输出量
export AGENT_BROWSER_MAX_OUTPUT=50000

# 将导航和网络请求限制在受信任的域名
export AGENT_BROWSER_ALLOWED_DOMAINS="example.com,*.example.com"

# 限制允许的操作类型
export AGENT_BROWSER_ACTION_POLICY=./policy.json

示例 policy.json

{"default":"deny","allow":["navigate","snapshot","click","fill","scroll","wait","get"],"deny":["eval","download","upload","network","state"]}

CLI 标志等效:

agent-browser --content-boundaries --max-output 50000 --allowed-domains "example.com,*.example.com" --action-policy ./policy.json open https://example.com

故障排除

  • command not found:安装并运行 agent-browser install
  • 点击了错误的元素:再次运行 snapshot -i 并使用新的引用。
  • 动态 SPA 内容缺失:使用 --load networkidle 或针对性的 wait 选择器等待。
  • 会话冲突:分配唯一的 --session 名称并关闭每个会话。
  • 输出压力过大:缩小快照范围(-i-c-d-s)并只提取必要的文本。

参考链接

本技能中的详细文档:

相关资源:

现成模板:

  • ./templates/form-automation.sh
  • ./templates/capture-workflow.sh

元数据

  • 版本:1.1.0
  • 最后更新:2026-02-26
  • 适用范围:为代理工作流提供确定性的浏览器自动化

📄 原始文档

完整文档(英文):

https://skills.sh/supercent-io/skills-template/agent-browser

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。