Created
Jul 23, 2024 06:43 AM
Favorite
Favorite
Priority
备注
推荐
🌟🌟🌟🌟
类型
AI+Spider
Aitrainee | 公众号:AI进修生
🔥将整个网站转变为适用于大模型训练的 Markdown 或结构化数据。使用单个 API 进行抓取、爬行、搜索和提取。
Hello,大家好,我是Aitrainee。今天给大家介绍一下Firecrawl,这是一个实用的爬虫工具。

Firecrawl 是什么?

Firecrawl就像一个智能机器人,从你给定的网页开始,自动找到并访问这个网站上的所有其他页面。它会提取每个页面中的主要内容,去掉广告和其他不需要的东西,然后把这些信息整理好,让你方便使用。而且,它不需要网站提供的地图文件来找到这些页面。
Firecrawl可以从你指定的网页开始,自动访问这个网站上所有能打开的子页面。就像你点开一个链接后,它会继续点开这个页面里的所有链接,直到把所有页面都访问一遍。只要这些页面没有被网站的设置阻止(比如没有被robots.txt文件禁止访问),Firecrawl就能爬取它们。
此外,Firecrawl还会从每个页面中提取有用的信息,去掉不重要的内容(比如广告和导航栏),并把这些数据整理成易于使用的格式,比如Markdown。

站点地图是什么?

站点地图(sitemap)是一个网站提供的文件,列出网站上的所有页面。它帮助搜索引擎或爬虫更快地找到和访问这些页面。站点地图通常是一个XML文件,里面包含网站上所有页面的链接。
总结一下:
  1. 1. Firecrawl 会自动从你给定的网页开始,遍历网站上的所有链接,爬取所有能访问的页面。
  1. 2. 它会去除杂乱信息,提取有用的数据并整理好。
  1. 3. 无需站点地图,Firecrawl也能找到并爬取所有页面。

演示视频

油管博主:开发者文稿 / 字幕译:Aitrainee,链接在这里
https://www.youtube.com/watch?v=fDSM7chMo5E
下面提供官方的文档介绍、相关资源、部署教程等,进一步支撑你的行动,以提升本文的帮助力。

🔥 Firecrawl

我们提供了易于使用的API托管版本。您可以在 这里 找到演示和文档。您也可以自行托管后台服务。
  • API
  • Python SDK
  • Node SDK
  • Langchain集成 🦜🔗
  • Llama Index集成 🦙
  • Langchain JS集成 🦜🔗
  • 想要其他SDK或集成?请通过打开issue告知我们。
要在本地运行,请参考 指南。

API密钥

要使用API,您需要在 Firecrawl 注册并获取API密钥。

爬取

用于爬取一个URL及其所有可访问的子页面。此操作提交一个爬取任务并返回一个作业ID以检查爬取状态。
返回一个作业ID

检查爬取作业

用于检查爬取作业的状态并获取其结果。

爬取

用于爬取一个URL并获取其内容。
响应:

搜索(测试版)

用于搜索网络,获取最相关的结果,爬取每个页面并返回Markdown格式的数据。

智能提取(测试版)

用于从爬取的页面中提取结构化数据。

使用Python SDK

安装Python SDK

爬取一个网站

爬取一个URL

要爬取单个URL,请使用 scrape_url 方法。它接收URL作为参数并返回爬取的数据字典。

从URL中提取结构化数据

通过LLM提取,您可以轻松地从任何URL中提取结构化数据。我们支持Pydantic模型,使其更容易使用。以下是使用方法:

搜索查询

执行网络搜索,获取顶级结果,提取每个页面的数据,并返回它们的Markdown格式内容。

使用Node SDK

安装

要安装Firecrawl Node SDK,可以使用npm:

使用方法

  1. 1. 从 firecrawl.dev 获取API密钥。
  1. 2. 将API密钥设置为环境变量 FIRECRAWL_API_KEY,或将其作为参数传递给 FirecrawlApp 类。

爬取URL

要爬取单个URL并进行错误处理,请使用 scrapeUrl 方法。它接收URL作为参数并返回爬取的数据字典。

爬取网站

要爬取网站并进行错误处理,请使用 crawlUrl 方法。它接收起始URL和可选参数作为参数。params 参数允许您指定爬取任务的附加选项,例如最大爬取页面数、允许的域和输出格式。

检查爬取状态

要检查爬取任务的状态并进行错误处理,请使用 checkCrawlStatus 方法。它接收作业ID作为参数并返回爬取任务的当前状态。

从URL中提取结构化数据

通过LLM提取,您可以轻松地从任何URL中提取结构化数据。我们支持zod模式,使其更容易使用。以下是使用方法:

搜索查询

通过 search 方法,您可以在搜索引擎中搜索查询并获取顶级结果及每个结果的页面内容。该方法接收查询作为参数并返回搜索结果。
参考链接:
[1]https://github.com/mendableai/firecrawl
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
notion image
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
开源项目89
人工智能99
github91
大模型97
Loading...