# 💡 Summary # 🧩 Cues # 🪞Notes Firecrawl 是一个专门为 AI 和大语言模型(LLM)设计的网页爬取与数据提取工具。简单来说,它的核心能力是将任意网页或整个网站转换成 LLM 易于理解的干净数据(如 Markdown)。 https://www.firecrawl.dev/app 是它的管理后台(Dashboard),核心服务能力如下: 1. 核心功能模块 Scrape(单页爬取): 输入一个 URL,将其内容提取为干净的 Markdown 格式(这对 LLM 训练和 RAG 非常友好)。 支持截取网页截图。 支持提取 HTML 源码。 PDF/DOCX 解析: 可以直接读取并解析网页上的 PDF 和 Word 文档内容。 Crawl(全站爬取): 输入一个主页链接,它会自动遍历整个网站的所有子页面(无需 Sitemap)。 适合获取整个文档站、博客或知识库的数据。 Search(网页搜索): 这是其较新的功能,支持直接搜索互联网内容并返回完整的页面数据(不仅仅是搜索引擎的摘要)。 Map(链接映射): 快速获取某个网站下的所有 URL 链接列表,用于了解站点结构。 Extract(结构化提取): 配合 LLM 能力,根据你提供的 Schema(结构定义),从网页中提取指定的结构化数据(如提取所有的价格、产品名称、日期等 JSON 格式数据)。