Anyhunt

简介

Anyhunt - 专为开发者打造的网页抓取 API

欢迎使用 Anyhunt

Anyhunt 是一款 网页抓取 API,让你可以即时从任意网页提取内容。专为需要从网络获取可靠、结构化数据的开发者打造。

什么是 Anyhunt?

Anyhunt 提供简单的 REST API 来抓取网页并提取多种格式的内容。发送一个 URL,即可获取干净的 Markdown、HTML、链接或截图。

curl -X POST https://server.anyhunt.app/api/v1/scrape \
  -H "Authorization: Bearer ah_your_api_key" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "formats": ["markdown", "links"]
  }'

核心功能

内容提取

从任意网页提取干净、结构化的内容,输出为 Markdown 或 HTML。非常适合用于 LLM 输入、构建知识库或内容迁移。

多页面爬取

支持深度控制、路径过滤和并行处理的网站爬取。几分钟内即可从数百个页面提取内容。

URL 发现

通过 Sitemap 解析或浏览器爬取发现网站的所有 URL。非常适合 SEO 分析和站点地图构建。

AI 结构化提取

使用 LLM 提取符合 JSON Schema 的结构化数据。提取产品信息、文章元数据或任何自定义数据结构。

Web 搜索

搜索网络并可选择性地抓取搜索结果内容。构建研究工具、监控竞争对手或聚合内容。

截图

捕获高质量的 PNG、JPEG 或 WebP 格式截图。支持全页面、视口或特定元素截图。

快速开始

使用场景

  • LLM 训练数据 - 为 AI 模型训练和 RAG 应用提取干净的文本
  • 内容迁移 - 使用结构化数据在 CMS 平台之间迁移内容
  • SEO 分析 - 分析竞争对手网站、提取元数据、发现站点结构
  • 价格监控 - 跨电商网站追踪产品价格和库存
  • 研究与聚合 - 从多个来源构建知识库
  • 视觉测试 - 为回归测试和文档捕获截图

可用 API

API描述
Scrape从单个 URL 提取内容
Crawl从网站爬取多个页面
Map发现网站的所有 URL
Batch Scrape并行抓取多个 URL
ExtractAI 驱动的结构化数据提取
Search带内容抓取的 Web 搜索

为什么选择 Anyhunt?

特性Anyhunt传统爬虫
配置时间几分钟几小时/几天
JavaScript 渲染完整 Chromium通常有限
输出格式Markdown、HTML、链接、截图通常只有原始 HTML
AI 提取内置 LLM 支持需要自定义集成
基础设施托管、可扩展自托管复杂性
速率限制自动处理手动实现

准备好开始了吗?创建你的账号,几分钟内即可提取你的第一个网页。