这是一个分享于 的项目,其中的信息可能已经有所发展或是发生改变。
### 由来
一直用[scrapy](https://github.com/scrapy/scrapy)抓数据,scrapy的分布式部署,需要人人工工分配抓取链接。
所以参考scrapy的爬虫虫架构和[elasticsearch](https://github.com/elastic/elasticsearch)的分布式架构。
编写了分布式的爬虫虫[ants](https://github.com/wcong/ants-go),
目前是alpha,欢迎大家来试用
### 功能
* 分布式:master分配request给各个node,node将抓取的结果,产生生的新request返回给master node
* web api:提供json格式的web api,开启爬虫虫任务,查看cluster,爬虫虫状态
* 定制爬虫虫:用用户自自定义抓取规则,使用用goquery解析html
8408 次点击
添加一条新回复
(您需要 后才能回复 没有账号 ?)
- 请尽量让自己的回复能够对别人有帮助
- 支持 Markdown 格式, **粗体**、~~删除线~~、
`单行代码` - 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
- 图片支持拖拽、截图粘贴等方式上传