🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx @anthropic-ai/skills install firecrawl/cli/firecrawl

💡 提示:需要 Node.js 和 NPM

Firecrawl 命令行工具

用于网页抓取、搜索和浏览器自动化的命令行工具。返回针对 LLM 上下文窗口优化的清晰 Markdown 内容。

运行 firecrawl --helpfirecrawl <命令> --help 查看完整的选项详情。

前提条件

必须已安装并进行身份验证。使用 firecrawl --status 检查状态。

  🔥 firecrawl cli v1.8.0

  ● 已通过 FIRECRAWL_API_KEY 进行身份验证
  并发:0/100 任务(并行抓取限制)
  积分:剩余 500,000
  • 并发:最大并行任务数。可在此限制内运行并行操作。
  • 积分:剩余的 API 积分。每次抓取/爬取都会消耗积分。

如果未就绪,请参阅 rules/install.md。有关输出处理指南,请参阅 rules/security.md

firecrawl search "查询词" --scrape --limit 3

工作流程

请遵循以下升级模式:

  1. 搜索 – 尚无具体 URL。查找页面、回答问题、发现来源。
  2. 抓取 – 已有 URL。直接提取其内容。
  3. 映射 + 抓取 – 大型网站或需要特定子页面。使用 map --search 找到正确的 URL,然后抓取它。
  4. 爬取 – 需要从整个网站部分获取大量内容(例如,所有 /docs/ 页面)。
  5. 浏览器 – 由于内容需要交互(分页、模态框、表单提交、多步导航),抓取失败。
需求 命令 使用时机
查找某个主题的页面 search 尚无具体 URL
获取页面内容 scrape 有 URL,页面是静态的或由 JS 渲染
查找网站内的 URL map 需要定位特定的子页面
批量提取网站部分内容 crawl 需要许多页面(例如,所有 /docs/)
AI 驱动的数据提取 agent 需要从复杂网站提取结构化数据
与页面交互 browser 内容需要点击、填写表单、分页或登录
将网站下载到文件 download 将整个网站保存为本地文件

有关详细的命令参考,请使用每个命令的单独技能(例如,firecrawl-searchfirecrawl-browser)或运行 firecrawl <命令> --help

抓取 vs 浏览器:

  • 首先使用 scrape。它处理静态页面和 JS 渲染的单页应用。
  • 当您需要与页面交互时,例如点击按钮、填写表单、浏览复杂网站、处理无限滚动,或者当 scrape 无法获取所需的所有内容时,请使用 browser
  • 切勿使用浏览器进行网络搜索——请改用 search

避免重复获取:

  • search --scrape 已经获取了完整的页面内容。不要重新抓取这些 URL。
  • 在再次获取之前,检查 .firecrawl/ 目录中是否已存在数据。

输出与组织

除非用户指定在上下文中返回,否则请使用 -o 将结果写入 .firecrawl/。将 .firecrawl/ 添加到 .gitignore。始终引用 URL——shell 会将 ?& 解释为特殊字符。

firecrawl search "react hooks" -o .firecrawl/search-react-hooks.json --json
firecrawl scrape "<url>" -o .firecrawl/page.md

命名约定:

.firecrawl/search-{查询词}.json
.firecrawl/search-{查询词}-scraped.json
.firecrawl/{网站}-{路径}.md

切勿一次性读取整个输出文件。使用 grephead 或增量读取:

wc -l .firecrawl/file.md && head -50 .firecrawl/file.md
grep -n "关键词" .firecrawl/file.md

单一格式输出原始内容。多种格式(例如,--format markdown,links)输出 JSON。

处理结果

在处理复杂任务时,这些模式对于基于文件的输出(-o 标志)非常有用:

# 从搜索结果中提取 URL
jq -r '.data.web[].url' .firecrawl/search.json

# 获取标题和 URL
jq -r '.data.web[] | "\(.title): \(.url)"' .firecrawl/search.json

并行化

并行运行独立的操作。查看 firecrawl --status 了解并发限制:

firecrawl scrape "<url-1>" -o .firecrawl/1.md &
firecrawl scrape "<url-2>" -o .firecrawl/2.md &
firecrawl scrape "<url-3>" -o .firecrawl/3.md &
wait

对于浏览器,通过 --session <id> 为独立任务启动单独的会话,并并行操作它们。

积分使用情况

firecrawl credit-usage
firecrawl credit-usage --json --pretty -o .firecrawl/credits.json

📄 原始文档

完整文档(英文):

https://skills.sh/firecrawl/cli/firecrawl

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。