简介
Anyhunt - 专为开发者打造的网页抓取 API
欢迎使用 Anyhunt
Anyhunt 是一款 网页抓取 API,让你可以即时从任意网页提取内容。专为需要从网络获取可靠、结构化数据的开发者打造。
什么是 Anyhunt?
Anyhunt 提供简单的 REST API 来抓取网页并提取多种格式的内容。发送一个 URL,即可获取干净的 Markdown、HTML、链接或截图。
curl -X POST https://server.anyhunt.app/api/v1/scrape \
-H "Authorization: Bearer ah_your_api_key" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com",
"formats": ["markdown", "links"]
}'核心功能
内容提取
从任意网页提取干净、结构化的内容,输出为 Markdown 或 HTML。非常适合用于 LLM 输入、构建知识库或内容迁移。
多页面爬取
支持深度控制、路径过滤和并行处理的网站爬取。几分钟内即可从数百个页面提取内容。
URL 发现
通过 Sitemap 解析或浏览器爬取发现网站的所有 URL。非常适合 SEO 分析和站点地图构建。
AI 结构化提取
使用 LLM 提取符合 JSON Schema 的结构化数据。提取产品信息、文章元数据或任何自定义数据结构。
Web 搜索
搜索网络并可选择性地抓取搜索结果内容。构建研究工具、监控竞争对手或聚合内容。
截图
捕获高质量的 PNG、JPEG 或 WebP 格式截图。支持全页面、视口或特定元素截图。
快速开始
使用场景
- LLM 训练数据 - 为 AI 模型训练和 RAG 应用提取干净的文本
- 内容迁移 - 使用结构化数据在 CMS 平台之间迁移内容
- SEO 分析 - 分析竞争对手网站、提取元数据、发现站点结构
- 价格监控 - 跨电商网站追踪产品价格和库存
- 研究与聚合 - 从多个来源构建知识库
- 视觉测试 - 为回归测试和文档捕获截图
可用 API
| API | 描述 |
|---|---|
| Scrape | 从单个 URL 提取内容 |
| Crawl | 从网站爬取多个页面 |
| Map | 发现网站的所有 URL |
| Batch Scrape | 并行抓取多个 URL |
| Extract | AI 驱动的结构化数据提取 |
| Search | 带内容抓取的 Web 搜索 |
为什么选择 Anyhunt?
| 特性 | Anyhunt | 传统爬虫 |
|---|---|---|
| 配置时间 | 几分钟 | 几小时/几天 |
| JavaScript 渲染 | 完整 Chromium | 通常有限 |
| 输出格式 | Markdown、HTML、链接、截图 | 通常只有原始 HTML |
| AI 提取 | 内置 LLM 支持 | 需要自定义集成 |
| 基础设施 | 托管、可扩展 | 自托管复杂性 |
| 速率限制 | 自动处理 | 手动实现 |
准备好开始了吗?创建你的账号,几分钟内即可提取你的第一个网页。