fetcher-mcp

Fetcher MCP 是一款 MCP 服务器，专为 AI 模型提供网页内容抓取功能。它利用 Playwright 无头浏览器，能够处理包含 JavaScript 的动态网页，克服了传统抓取工具的局限性。该服务器内置智能内容提取算法，可自动提取网页主要内容并转换为 Markdown 或 HTML 格式，方便 AI 模型理解和处理。

Fetcher MCP 的核心价值在于其高效性和灵活性。它支持并行抓取多个 URL，显著提升批量处理效率，并能自动过滤不必要的资源，减少带宽消耗。开发者可以通过配置超时时间、内容提取方式和输出格式等参数，灵活适应不同的抓取需求。此外，完善的错误处理和日志记录机制确保了运行的可靠性。通过简单的配置，即可将 Fetcher MCP 集成到 Claude Desktop 等环境中，为 AI 应用提供强大的网页数据获取能力。

JavaScript 动态内容抓取

Fetcher-MCP 的核心功能在于能够抓取执行 JavaScript 的动态网页内容。传统的网页抓取工具往往无法处理这类页面，因为它们只能获取服务器返回的初始 HTML 代码，而无法执行 JavaScript 来渲染页面。Fetcher-MCP 使用 Playwright 无头浏览器来模拟真实用户的浏览器环境，完整地渲染页面，从而可以抓取到动态生成的内容。这使得 AI 模型能够访问更广泛、更现代的 Web 数据，例如单页应用程序（SPA）和富交互式网站。

例如，一个电商网站使用 JavaScript 动态加载商品信息。传统的抓取工具只能获取到空的 HTML 模板，而 Fetcher-MCP 可以抓取到完整的商品列表和详细信息，为 AI 模型提供训练数据或实时信息。开发者无需编写复杂的 JavaScript 逆向工程代码，即可轻松获取所需数据。

技术实现上，Fetcher-MCP 利用 Playwright 的 page.goto() 方法加载网页，并使用 page.content() 方法获取渲染后的 HTML 内容。

智能内容提取与格式化

Fetcher-MCP 具备智能内容提取功能，能够自动从网页中提取主要内容，并将其转换为 Markdown 或 HTML 格式。内置的可读性算法可以识别并删除广告、导航栏和其他非必要元素，只保留文章的正文部分。这大大简化了 AI 模型的数据预处理流程，减少了噪声数据，提高了模型的训练效率和准确性。同时，支持 Markdown 格式输出，方便 AI 模型进行文本分析和处理。

例如，从一篇新闻报道网页中提取正文内容，去除广告和侧边栏信息，并将其转换为 Markdown 格式，方便 AI 模型进行情感分析或摘要生成。开发者无需手动编写复杂的 HTML 解析代码，即可快速获取干净、结构化的文本数据。

技术实现上，Fetcher-MCP 使用 extractContent 参数控制是否启用智能内容提取，并使用 returnHtml 参数选择输出格式。

并行批量 URL 抓取

Fetcher-MCP 支持并行批量抓取多个 URL，通过 fetch_urls 工具实现。这显著提高了批量数据获取的效率，尤其是在需要从大量网页中提取数据时。并行处理可以充分利用服务器的 CPU 和网络资源，缩短抓取时间。

例如，一个研究人员需要从 1000 个不同的博客网站上抓取文章数据。使用传统的串行抓取方式可能需要数小时甚至数天，而使用 Fetcher-MCP 的并行抓取功能，可以在几分钟内完成任务，大大节省了时间和资源。

技术实现上，Fetcher-MCP 使用 Playwright 的 Promise.all() 方法并发执行多个 fetch_url 请求。开发者可以通过调整并发数量来优化性能。

可配置的抓取参数

Fetcher-MCP 提供了丰富的可配置参数，允许开发者根据不同的网页特性和需求进行定制化抓取。例如，可以设置页面加载超时时间、等待导航完成的事件、返回内容的最大长度等。这些参数可以灵活地控制抓取行为，适应各种复杂的网页环境。

例如，对于加载缓慢的网站，可以增加页面加载超时时间，避免抓取失败。对于包含反爬虫机制的网站，可以设置等待导航完成的事件，确保页面完全加载后再进行内容提取。

技术实现上，Fetcher-MCP 通过 MCP 协议接收客户端传递的参数，并将其传递给 Playwright 的相关方法。开发者可以通过修改这些参数来优化抓取效果。

资源优化与错误处理

Fetcher-MCP 自动阻止不必要的资源（图像、样式表、字体、媒体），以减少带宽使用并提高性能。同时，它还具备全面的错误处理和日志记录机制，确保即使在处理有问题的网页时也能可靠运行。这降低了服务器的负载，提高了抓取的稳定性和可靠性。

例如，在抓取大量网页时，禁用媒体资源可以显著减少带宽消耗，降低服务器压力。当遇到无法访问的网页时，Fetcher-MCP 会记录错误信息，方便开发者进行问题排查和修复。

技术实现上，Fetcher-MCP 使用 Playwright 的 route 方法拦截不必要的资源请求，并使用 try-catch 语句捕获异常，记录日志。

MCP Hubs

fetcher-mcp 解决方案概述

fetcher-mcp 核心能力

JavaScript 动态内容抓取

智能内容提取与格式化

并行批量 URL 抓取

可配置的抓取参数

资源优化与错误处理

fetcher-mcp 解决方案概述

fetcher-mcp 核心能力

JavaScript 动态内容抓取

智能内容提取与格式化

并行批量 URL 抓取

可配置的抓取参数

资源优化与错误处理

与fetcher-mcp互补的MCP解决方案