ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格式,方便后续处理和存储。

ScrapeGraphAI的主要功能

  • 智能单页爬取:用户只需提供简单提示和网页地址,ScrapeGraphAI能精准提取所需信息,无需编写复杂规则。
  • 多页面搜索爬取:可自动从搜索引擎结果中提取多个页面的相关信息,汇总成统一格式。
  • Markdownify:能将网页内容快速转换为整洁的Markdown格式,便于后续处理和存储。
  • 自适应爬取:基于LLM技术,ScrapeGraphAI能自动适应网站结构的变化,大幅降低了对频繁维护和更新的需求。
  • 多模型支持:兼容OpenAI、Groq、Azure、Gemini等云端模型,以及Ollama本地模型,满足不同场景需求。
  • 多平台支持:可以处理XML、HTML、JSON和Markdown等多种文档格式。
  • 格式化输出:自动将爬取结果整理为结构化JSON数据,便于后续处理和分析。
  • 数据存储:支持将提取的数据保存为CSV文件,方便用户进行进一步的数据管理和分析。
  • 语音生成能力:将网页内容转化为音频文件,方便通勤或其他场景下的内容消费。
  • 代码生成器:AI可以自动生成可直接运行的Python或Node.js爬虫代码,方便开发者集成到自己的应用或流程中。

ScrapeGraphAI的技术原理

  • 自然语言驱动:ScrapeGraphAI 支持用户通过简单的自然语言指令来描述需要提取的信息。能自动分析目标网页结构,提取所需数据。
  • 图逻辑引擎:ScrapeGraphAI 将爬取过程建模为有向图(Directed Graph),图中的节点代表不同的操作或数据处理步骤,如请求发送、HTML解析、数据提取等。通过图逻辑引擎,爬取任务被分解为多个离散的节点,每个节点负责特定的任务,节点之间通过边连接,形成清晰的数据流动方向。便于并行处理和错误隔离,使整个爬取过程更加可解释和可视化。
  • LLM 的智能解析:ScrapeGraphAI 基于 LLM 的强大语义理解能力,自动解析用户的自然语言指令。LLM 能理解用户的需求,动态生成相应的爬取逻辑。使 ScrapeGraphAI 能自动适应网站结构的变化,网页布局发生改变,也能准确提取关键信息。

ScrapeGraphAI的项目地址

相关推荐

crawl4ai

crawl4ai

<div class="markdown-heading" dir="auto"> <p>🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。</p> <a id="user-content--crawl4ai-open-source-llm-friendly-web-crawler--scraper" class="anchor" href="https://github.com/unclecode/crawl4ai#-crawl4ai-open-source-llm-friendly-web-crawler--scraper" aria-label="永久链接:🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。"></a></div> <p>Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活,专为实时性能而构建,为开发者提供无与伦比的速度、精度和部署便捷性。</p> <p><a href="https://github.com/unclecode/crawl4ai#-recent-updates">✨ 查看最新更新 v0.6.0</a></p> <p>🎉 0.6.0 版本现已发布!此候选版本引入了支持地理位置和区域设置的全球感知爬取功能、表格到 DataFrame 的提取、带预热功能的浏览器池、网络和控制台流量捕获、用于 AI 工具的 MCP 集成,以及全新改版的 Docker 部署!<a href="https://docs.crawl4ai.com/blog" rel="nofollow">阅读发行说明 →</a></p> <details> <summary>🤓我的个人故事</summary> <p> </p> <p> </p> <p> </p> <p> </p> </details> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">🧐 为什么选择 Crawl4AI?</h2> <a id="user-content--why-crawl4ai" class="anchor" href="https://github.com/unclecode/crawl4ai#-why-crawl4ai" aria-label="永久链接:🧐 为什么选择 Crawl4AI?"></a></div> <ol dir="auto"> <li>专为 LLM 打造:创建针对 RAG 和微调应用程序优化的智能、简洁的 Markdown。</li> <li>闪电般快速:以实时、经济高效的性能以 6 倍的速度提供结果。</li> <li>灵活的浏览器控制:提供会话管理、代理和自定义挂钩,实现无缝数据访问。</li> <li>启发式智能:使用先进的算法进行高效提取,减少对昂贵模型的依赖。</li> <li>开源且可部署:完全开源,无需 API 密钥 - 可用于 Docker 和云集成。</li> <li>蓬勃发展的社区:由充满活力的社区和排名第一的 GitHub 存储库积极维护。</li> </ol> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">🚀 快速入门</h2> <a id="user-content--quick-start" class="anchor" href="https://github.com/unclecode/crawl4ai#-quick-start" aria-label="永久链接:🚀 快速入门"></a></div> <ol dir="auto"> <li>安装Crawl4AI:</li> </ol> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre># Install the package pip install -U crawl4ai # For pre release versions pip install crawl4ai --pre # Run post-installation setup crawl4ai-setup # Verify your installation crawl4ai-doctor</pre> <div class="zeroclipboard-container"> </div> </div> <p>如果您遇到任何与浏览器相关的问题,您可以手动安装它们:</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python -m playwright install --with-deps chromium</pre> <div class="zeroclipboard-container"> </div> </div> <ol dir="auto" start="2"> <li>使用 Python 运行简单的网络爬虫:</li> </ol> <div class="highlight highlight-source-python notranslate position-relative overflow-auto" dir="auto"> <pre>import asyncio from crawl4ai import * async def main(): async with AsyncWebCrawler() as crawler: result = await crawler.arun( url="https://www.nbcnews.com/business", ) print(result.markdown) if __name__ == "__main__": asyncio.run(main())</pre> <div class="zeroclipboard-container"> </div> </div> <ol dir="auto" start="3"> <li>或者使用新的命令行界面:</li> </ol> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre># Basic crawl with markdown output crwl https://www.nbcnews.com/business -o markdown # Deep crawl with BFS strategy, max 10 pages crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10 # Use LLM extraction with a specific question crwl https://www.example.com/products -q "Extract all product prices"</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">✨ 特点</h2> <a id="user-content--features" class="anchor" href="https://github.com/unclecode/crawl4ai#-features" aria-label="永久链接:✨ 功能"></a></div> <details> <summary>📝 Markdown 生成</summary> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> </details> <details> <summary>📊结构化数据提取</summary> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> </details> <details> <summary>🌐浏览器集成</summary> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> </details> <details> <summary>🔎爬取和抓取</summary> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> </details> <details> <summary>🚀部署</summary> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> </details> <details> <summary>🎯附加功能</summary> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> </details> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">现在就尝试一下!</h2> <a id="user-content-try-it-now" class="anchor" href="https://github.com/unclecode/crawl4ai#try-it-now" aria-label="永久链接:立即尝试!"></a></div> <p>✨ 尝试一下<a href="https://colab.research.google.com/drive/1SgRPrByQLzjRfwoRNq1wSGE9nYY_EE8C?usp=sharing" rel="nofollow"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/18/1747536672_BETJSyN5wV.png"></a></p> <p>✨ 访问我们的<a href="https://docs.crawl4ai.com/" rel="nofollow">文档网站</a></p> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">安装🛠️</h2> <a id="user-content-installation-️" class="anchor" href="https://github.com/unclecode/crawl4ai#installation-%EF%B8%8F" aria-label="永久链接:安装🛠️"></a></div> <p>Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包,也可以使用 Docker 安装。</p> <details> <summary>🐍使用 pip</summary> <p> </p> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1"> </h3> <a id="user-content-basic-installation" class="anchor" href="https://github.com/unclecode/crawl4ai#basic-installation" aria-label="永久链接:基本安装"></a></div> <p> </p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> <p> </p> <p> </p> <ol dir="auto"> <li> <p> </p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> </li> <li> <p> </p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> </li> </ol> <p> </p> <hr> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1"> </h3> <a id="user-content-installation-with-synchronous-version" class="anchor" href="https://github.com/unclecode/crawl4ai#installation-with-synchronous-version" aria-label="永久链接:使用同步版本安装"></a></div> <p> </p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> <hr> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1"> </h3> <a id="user-content-development-installation" class="anchor" href="https://github.com/unclecode/crawl4ai#development-installation" aria-label="永久链接:开发安装"></a></div> <p> </p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> <p> </p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> </details> <details> <summary>🐳 Docker 部署</summary> <blockquote> <p> </p> </blockquote> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1"> </h3> <a id="user-content-new-docker-features" class="anchor" href="https://github.com/unclecode/crawl4ai#new-docker-features" aria-label="永久链接:Docker 的新功能"></a></div> <p> </p> <ul dir="auto"> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> <li> </li> </ul> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1"> </h3> <a id="user-content-getting-started" class="anchor" href="https://github.com/unclecode/crawl4ai#getting-started" aria-label="永久链接:入门"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre> </pre> <div class="zeroclipboard-container"> </div> </div> <p> </p> </details> <hr> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">快速测试</h3> <a id="user-content-quick-test" class="anchor" href="https://github.com/unclecode/crawl4ai#quick-test" aria-label="永久链接:快速测试"></a></div> <p>运行快速测试(适用于两种 Docker 选项):</p> <div class="highlight highlight-source-python notranslate position-relative overflow-auto" dir="auto"> <pre>import requests # Submit a crawl job response = requests.post( "http://localhost:11235/crawl", json={"urls": "https://example.com", "priority": 10} ) task_id = response.json()["task_id"] # Continue polling until the task is complete (status="completed") result = requests.get(f"http://localhost:11235/task/{task_id}")</pre> <div class="zeroclipboard-container"> </div> </div> <p>更多示例,请参阅<a href="https://github.com/unclecode/crawl4ai/blob/main/docs/examples/docker_example.py">Docker 示例</a>。高级配置、环境变量及使用示例,请参阅<a href="https://docs.crawl4ai.com/basic/docker-deployment/" rel="nofollow">Docker 部署指南</a>。</p>

Firecrawl

Firecrawl

Firecrawl是一项 API 服务,它获取 URL,进行爬取,并将其转换为干净的 Markdown 或结构化数据。我们会爬取所有可访问的子页面,并为每个子页面提供干净的数据。

MindPal for YouTube

MindPal for YouTube

MindPal: AI-powered platform for professionals to enhance productivity with various features.

MediSearch

MediSearch

MediSearch is a reliable search engine for science-based medical answers.

Answer Overflow

Answer Overflow

Index Discord channels into Google for easy searching.

Algolia

Algolia

Algolia is an AI-powered platform for fast and relevant search experiences.

Felo

Felo

Multilingual AI search engine for global knowledge

exa.ai

exa.ai

Web API that enriches AI applications with real-time data.

Perplexity AI

Perplexity AI

An AI search engine utilizing large language models and search engines.