🚀 快速安装
复制以下命令并运行,立即安装此 Skill:
npx @anthropic-ai/skills install firecrawl/cli/firecrawl
💡 提示:需要 Node.js 和 NPM
Firecrawl 命令行工具
用于网页抓取、搜索和浏览器自动化的命令行工具。返回针对 LLM 上下文窗口优化的清晰 Markdown 内容。
运行 firecrawl --help 或 firecrawl <命令> --help 查看完整的选项详情。
前提条件
必须已安装并进行身份验证。使用 firecrawl --status 检查状态。
🔥 firecrawl cli v1.8.0
● 已通过 FIRECRAWL_API_KEY 进行身份验证
并发:0/100 任务(并行抓取限制)
积分:剩余 500,000
- 并发:最大并行任务数。可在此限制内运行并行操作。
- 积分:剩余的 API 积分。每次抓取/爬取都会消耗积分。
如果未就绪,请参阅 rules/install.md。有关输出处理指南,请参阅 rules/security.md。
firecrawl search "查询词" --scrape --limit 3
工作流程
请遵循以下升级模式:
- 搜索 – 尚无具体 URL。查找页面、回答问题、发现来源。
- 抓取 – 已有 URL。直接提取其内容。
- 映射 + 抓取 – 大型网站或需要特定子页面。使用
map --search找到正确的 URL,然后抓取它。 - 爬取 – 需要从整个网站部分获取大量内容(例如,所有 /docs/ 页面)。
- 浏览器 – 由于内容需要交互(分页、模态框、表单提交、多步导航),抓取失败。
| 需求 | 命令 | 使用时机 |
|---|---|---|
| 查找某个主题的页面 | search |
尚无具体 URL |
| 获取页面内容 | scrape |
有 URL,页面是静态的或由 JS 渲染 |
| 查找网站内的 URL | map |
需要定位特定的子页面 |
| 批量提取网站部分内容 | crawl |
需要许多页面(例如,所有 /docs/) |
| AI 驱动的数据提取 | agent |
需要从复杂网站提取结构化数据 |
| 与页面交互 | browser |
内容需要点击、填写表单、分页或登录 |
| 将网站下载到文件 | download |
将整个网站保存为本地文件 |
有关详细的命令参考,请使用每个命令的单独技能(例如,firecrawl-search、firecrawl-browser)或运行 firecrawl <命令> --help。
抓取 vs 浏览器:
- 首先使用
scrape。它处理静态页面和 JS 渲染的单页应用。 - 当您需要与页面交互时,例如点击按钮、填写表单、浏览复杂网站、处理无限滚动,或者当
scrape无法获取所需的所有内容时,请使用browser。 - 切勿使用浏览器进行网络搜索——请改用
search。
避免重复获取:
search --scrape已经获取了完整的页面内容。不要重新抓取这些 URL。- 在再次获取之前,检查
.firecrawl/目录中是否已存在数据。
输出与组织
除非用户指定在上下文中返回,否则请使用 -o 将结果写入 .firecrawl/。将 .firecrawl/ 添加到 .gitignore。始终引用 URL——shell 会将 ? 和 & 解释为特殊字符。
firecrawl search "react hooks" -o .firecrawl/search-react-hooks.json --json
firecrawl scrape "<url>" -o .firecrawl/page.md
命名约定:
.firecrawl/search-{查询词}.json
.firecrawl/search-{查询词}-scraped.json
.firecrawl/{网站}-{路径}.md
切勿一次性读取整个输出文件。使用 grep、head 或增量读取:
wc -l .firecrawl/file.md && head -50 .firecrawl/file.md
grep -n "关键词" .firecrawl/file.md
单一格式输出原始内容。多种格式(例如,--format markdown,links)输出 JSON。
处理结果
在处理复杂任务时,这些模式对于基于文件的输出(-o 标志)非常有用:
# 从搜索结果中提取 URL
jq -r '.data.web[].url' .firecrawl/search.json
# 获取标题和 URL
jq -r '.data.web[] | "\(.title): \(.url)"' .firecrawl/search.json
并行化
并行运行独立的操作。查看 firecrawl --status 了解并发限制:
firecrawl scrape "<url-1>" -o .firecrawl/1.md &
firecrawl scrape "<url-2>" -o .firecrawl/2.md &
firecrawl scrape "<url-3>" -o .firecrawl/3.md &
wait
对于浏览器,通过 --session <id> 为独立任务启动单独的会话,并并行操作它们。
积分使用情况
firecrawl credit-usage
firecrawl credit-usage --json --pretty -o .firecrawl/credits.json
📄 原始文档
完整文档(英文):
https://skills.sh/firecrawl/cli/firecrawl
💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

评论(0)