🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx @anthropic-ai/skills install am-will/codex-skills/gemini-computer-use

💡 提示:需要 Node.js 和 NPM

Gemini 计算机使用

快速开始

  1. 加载环境文件并设置您的 API 密钥:
    cp env.example env.sh
    $EDITOR env.sh
    source env.sh
    
  2. 创建虚拟环境并安装依赖:
    python -m venv .venv
    source .venv/bin/activate
    pip install google-genai playwright
    playwright install chromium
    
  3. 使用提示词运行代理脚本:
    python scripts/computer_use_agent.py \
      --prompt "在 example.com 上查找最新的博客文章标题" \
      --start-url "https://example.com" \
      --turn-limit 6
    

浏览器选择

  • 默认:Playwright 捆绑的 Chromium(无需环境变量)。
  • 使用 COMPUTER_USE_BROWSER_CHANNEL 选择一个通道(Chrome/Edge)。
  • 使用 COMPUTER_USE_BROWSER_EXECUTABLE 使用自定义的基于 Chromium 的可执行文件(例如 Brave)。

如果两者都设置了,COMPUTER_USE_BROWSER_EXECUTABLE 优先。

核心工作流程(代理循环)

  1. 捕获截图并将用户目标 + 截图发送给模型。
  2. 解析响应中的 function_call 动作。
  3. 在 Playwright 中执行每个动作。
  4. 如果 safety_decisionrequire_confirmation,在执行前提示用户。
  5. 发送包含最新 URL + 截图的 function_response 对象。
  6. 重复,直到模型只返回文本(无动作)或达到回合限制。

操作指南

  • 在沙盒浏览器配置文件或容器中运行。
  • 使用 --exclude 阻止您不希望模型采取的风险动作。
  • 除非有理由更改,否则将视口保持在 1440×900。

资源

  • 脚本:scripts/computer_use_agent.py
  • 参考笔记:references/google-computer-use.md
  • 环境模板:env.example

📄 原始文档

完整文档(英文):

https://skills.sh/am-will/codex-skills/gemini-computer-use

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。