🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。

Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活,专为实时性能而构建,为开发者提供无与伦比的速度、精度和部署便捷性。

✨ 查看最新更新 v0.6.0

🎉 0.6.0 版本现已发布!此候选版本引入了支持地理位置和区域设置的全球感知爬取功能、表格到 DataFrame 的提取、带预热功能的浏览器池、网络和控制台流量捕获、用于 AI 工具的 MCP 集成,以及全新改版的 Docker 部署!阅读发行说明 →

🤓我的个人故事

 

 

 

 

🧐 为什么选择 Crawl4AI?

  1. 专为 LLM 打造:创建针对 RAG 和微调应用程序优化的智能、简洁的 Markdown。
  2. 闪电般快速:以实时、经济高效的性能以 6 倍的速度提供结果。
  3. 灵活的浏览器控制:提供会话管理、代理和自定义挂钩,实现无缝数据访问。
  4. 启发式智能:使用先进的算法进行高效提取,减少对昂贵模型的依赖。
  5. 开源且可部署:完全开源,无需 API 密钥 - 可用于 Docker 和云集成。
  6. 蓬勃发展的社区:由充满活力的社区和排名第一的 GitHub 存储库积极维护。

🚀 快速入门

  1. 安装Crawl4AI:
# Install the package
pip install -U crawl4ai

# For pre release versions
pip install crawl4ai --pre

# Run post-installation setup
crawl4ai-setup

# Verify your installation
crawl4ai-doctor
 

如果您遇到任何与浏览器相关的问题,您可以手动安装它们:

python -m playwright install --with-deps chromium
 
  1. 使用 Python 运行简单的网络爬虫:
import asyncio
from crawl4ai import *

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.nbcnews.com/business",
        )
        print(result.markdown)

if __name__ == "__main__":
    asyncio.run(main())
 
  1. 或者使用新的命令行界面:
# Basic crawl with markdown output
crwl https://www.nbcnews.com/business -o markdown

# Deep crawl with BFS strategy, max 10 pages
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10

# Use LLM extraction with a specific question
crwl https://www.example.com/products -q "Extract all product prices"
 

✨ 特点

📝 Markdown 生成
  •  
  •  
  •  
  •  
  •  
📊结构化数据提取
  •  
  •  
  •  
  •  
  •  
🌐浏览器集成
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
🔎爬取和抓取
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
🚀部署
  •  
  •  
  •  
  •  
  •  
🎯附加功能
  •  
  •  
  •  
  •  
  •  
  •  
  •  

现在就尝试一下!

✨ 尝试一下

✨ 访问我们的文档网站

安装🛠️

Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包,也可以使用 Docker 安装。

🐍使用 pip

 

 

 

 
 

 

 

  1.  

     
     
  2.  

     
     

 


 

 

 
 

 

 

 
 

 

 
 
🐳 Docker 部署

 

 

 

  •  
  •  
  •  
  •  
  •  
  •  

 

 
 

 


快速测试

运行快速测试(适用于两种 Docker 选项):

import requests

# Submit a crawl job
response = requests.post(
    "http://localhost:11235/crawl",
    json={"urls": "https://example.com", "priority": 10}
)
task_id = response.json()["task_id"]

# Continue polling until the task is complete (status="completed")
result = requests.get(f"http://localhost:11235/task/{task_id}")
 

更多示例,请参阅Docker 示例。高级配置、环境变量及使用示例,请参阅Docker 部署指南

相关推荐

ScrapeGraphAI

ScrapeGraphAI

<p>ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格式,方便后续处理和存储。</p> <p><img src="https://img.medsci.cn/aisite/img//e05OdgIrIpZU0eVQfBZSZEIoToz2lLyMli5eGQH0.png"></p> <h2 style="font-size: 20px;">ScrapeGraphAI的主要功能</h2> <ul> <li>智能单页爬取:用户只需提供简单提示和网页地址,ScrapeGraphAI能精准提取所需信息,无需编写复杂规则。</li> <li>多页面搜索爬取:可自动从搜索引擎结果中提取多个页面的相关信息,汇总成统一格式。</li> <li>Markdownify:能将网页内容快速转换为整洁的Markdown格式,便于后续处理和存储。</li> <li>自适应爬取:基于LLM技术,ScrapeGraphAI能自动适应网站结构的变化,大幅降低了对频繁维护和更新的需求。</li> <li>多模型支持:兼容OpenAI、Groq、Azure、Gemini等云端模型,以及Ollama本地模型,满足不同场景需求。</li> <li>多平台支持:可以处理XML、HTML、JSON和Markdown等多种文档格式。</li> <li>格式化输出:自动将爬取结果整理为结构化JSON数据,便于后续处理和分析。</li> <li>数据存储:支持将提取的数据保存为CSV文件,方便用户进行进一步的数据管理和分析。</li> <li>语音生成能力:将网页内容转化为音频文件,方便通勤或其他场景下的内容消费。</li> <li>代码生成器:AI可以自动生成可直接运行的Python或Node.js爬虫代码,方便开发者集成到自己的应用或流程中。</li> </ul> <h2 style="font-size: 20px;">ScrapeGraphAI的技术原理</h2> <ul> <li>自然语言驱动:ScrapeGraphAI 支持用户通过简单的自然语言指令来描述需要提取的信息。能自动分析目标网页结构,提取所需数据。</li> <li>图逻辑引擎:ScrapeGraphAI 将爬取过程建模为有向图(Directed Graph),图中的节点代表不同的操作或数据处理步骤,如请求发送、HTML解析、数据提取等。通过图逻辑引擎,爬取任务被分解为多个离散的节点,每个节点负责特定的任务,节点之间通过边连接,形成清晰的数据流动方向。便于并行处理和错误隔离,使整个爬取过程更加可解释和可视化。</li> <li>LLM 的智能解析:ScrapeGraphAI 基于 LLM 的强大语义理解能力,自动解析用户的自然语言指令。LLM 能理解用户的需求,动态生成相应的爬取逻辑。使 ScrapeGraphAI 能自动适应网站结构的变化,网页布局发生改变,也能准确提取关键信息。</li> </ul> <h2 style="font-size: 20px;">ScrapeGraphAI的项目地址</h2> <ul> <li>Github仓库:<a class="external" href="https://github.com/ScrapeGraphAI/Scrapegraph-ai" target="_blank" rel="noopener nofollow">https://github.com/ScrapeGraphAI/Scrapegraph-ai</a></li> </ul>

Firecrawl

Firecrawl

Firecrawl是一项 API 服务,它获取 URL,进行爬取,并将其转换为干净的 Markdown 或结构化数据。我们会爬取所有可访问的子页面,并为每个子页面提供干净的数据。

PodQuest

PodQuest

<p>PodQuest是智能播客发现引擎,帮助用户轻松找到并享受全球优质播客内容。基于智能搜索技术,让用户快速定位到感兴趣的节目,PodQuest支持一键订阅功能,方便用户随时收听最新内容。PodQuest具备AI转写功能,支持将音频内容转为文本,方便用户边看边听。PodQuest推出了播客社区,用户查看他人评价和讨论,营造良好的互动氛围。</p> <h2 style="font-size: 20px;">PodQuest的主要功能</h2> <ul> <li>精准定位:基于智能算法,用户快速找到感兴趣的播客节目,支持精准定位到具体章节。</li> <li>高效检索:支持关键词搜索,帮助用户在海量内容中快速找到目标。</li> <li>一键订阅:支持用户一键订阅喜欢的播客节目,所有订阅内容统一管理,方便随时查看和收听。新发布的播客内容会自动更新,确保用户不会错过任何一集。</li> <li>AI转写::将播客音频内容智能转写为文本,支持用户点击文本快速定位到音频的对应位置。</li> <li>社区互动:用户在平台上查看其他人的评价和讨论,分享自己的想法,营造良好的社区氛围。</li> <li>多平台支持:兼容多种设备,包括 iOS、Android、Mac 等,方便用户随时随地收听。</li> </ul>

MindPal for YouTube

MindPal for YouTube

MindPal: AI-powered platform for professionals to enhance productivity with various features.

MediSearch

MediSearch

MediSearch is a reliable search engine for science-based medical answers.

Answer Overflow

Answer Overflow

Index Discord channels into Google for easy searching.

Algolia

Algolia

Algolia is an AI-powered platform for fast and relevant search experiences.

Felo

Felo

<p>Felo是免费AI智能搜索引擎,支持社交联网搜索和多语种问答结果。用户可以自然语言提问,Felo能理解并分解问题,同时提供中文和英文搜索结果。Felo以分块形式展示答案,每块都有详细内容和来源链接。Felo还提供社交搜索、专业搜索和主题问答功能,满足不同用户的需求。Felo Pro订阅服务每月14.99美元,提供100次专业搜索和多种AI模型选择。</p> <h2 style="font-size: 20px;">Felo的主要功能</h2> <ul> <li>基础问答:通过自然语言处理技术,理解和分解用户问题,提供中文和英文的搜索结果。</li> <li>社交搜索:集成Twitter、Facebook、Reddit等社交平台的信息,提供社交媒体上的相关内容。</li> <li>小红书搜索:专门针对小红书平台的内容搜索,提供问题拆分和推荐系统。</li> <li>Reddit搜索:针对Reddit平台的内容搜索,提供相关问题和讨论。</li> <li>Pro 搜索:提供更深入和专业的搜索服务,可能包括更高级的搜索算法或更详细的结果。</li> <li>Topic 问答:支持用户将问题归类到特定主题,方便管理和深入探讨。</li> </ul> <h2 style="font-size: 20px;">如何使用Felo</h2> <ul> <li>访问官网:<a href="https://felo.ai?utm_source=medsci" target="_blank" rel="noopener">felo.ai</a></li> </ul>

exa.ai

exa.ai

Web API that enriches AI applications with real-time data.

Perplexity AI

Perplexity AI

An AI search engine utilizing large language models and search engines.