搜索
系统检测到您的用户名不符合规范:

还在翻墙找资料?试试这几款采集软件吧!

浏览:1343 发布日期:2016年11月23日 分类:技术分享 关键字: JavaScript,网络爬虫,爬虫框架,源码分享,云爬虫,数据挖掘
因为工作的关系需要收集很多信息,每天的大部分时间都花在浏览网页上。费时费力不说还没有多大成效。为了提高效率,我尝试用了国内外几款数据采集软件。以下是这几款软件的说明和我使用的心得体会。



国外数据采集软件

DIFFBOT

使用DIFFBOT 采集网络数据不需要编写规则,全程可视化操作,简单易上手。

三大功能模块BULK API, CRAWLBOT, CUSTOM API (Analyze API, Article API, Product API, Image AP, Custom API).
CUSTOM API 功能:输入需要采集的页面之后会产生页面预览,手动选取需要采集的模块,设定字段标题,链接,内容等,自动生成代码可以嵌入API

Custom API功能可以直接编辑采集到的内容(有attribute,ignore,replace三个功能)

采集结果如下:

Import.io

magic功能。输入需要采集的网址,会自动采集并按照设定好的字段(subtopic_value,subtopic_link,question_link,itemvote_value,itemvote_value_numbers,label_1,label_2,author_link,itemanswer_values,link_1,label_3)进行排序显示,采集到的内容可以导出excel或者保存api。

下图为采集知乎话题结果:

国内数据采集软件

火车头

火车头采集软件是国内比较流行的一款采集器。

功能较完善,有分布式高速采集,多识别系统,支持多数据库,采集监控系统等。

功能分的很细导致可操作性不强,使用过程繁琐复杂。官网上有详细的教程,但对一个新手来说,尤其是刚刚接触采集器的站长,短时间内很难上手。

图片来自火车头官网:

神箭手云爬虫

神箭手云爬虫是我最近刚刚接触到的一种云端爬虫。

操作步骤:购买规则-设置关键词-启动任务-自动云端采集-自动发布

和传统的采集器不同,神箭手云爬虫无需配置采集流程。规则市场中提供大量免费采集模板,只需设置关键词即可。爬虫任务全程在云端执行无需开机操作,采集结果可自动发布到多个网站(目前支持wecenter,wordpree,discuz等)。

开发者可以自己编写采集规则出售或自用,有详细的开发者文档可以创建专属于自己的爬虫。

使用截图如下:


最佳答案
评论() 相关
后面还有条评论,
评论支持使用[code][/code]标签添加代码
您需要登录后才可以评论 登录 | 立即注册
收藏
小壁虎
积分:161 等级:LV1
热点推荐
(追記) (追記ここまで)
最新更新

我们

合作

网站

信息

ThinkPHP 是一个免费开源的,快速、简单的面向对象的 轻量级PHP开发框架 ,创立于2006年初,遵循Apache2开源协议发布,是为了敏捷WEB应用开发和简化企业应用开发而诞生的。ThinkPHP从诞生以来一直秉承简洁实用的设计原则,在保持出色的性能和至简的代码的同时,也注重易用性。并且拥有众多的原创功能和特性,在社区团队的积极参与下,在易用性、扩展性和性能方面不断优化和改进,已经成长为国内最领先和最具影响力的WEB应用开发框架,众多的典型案例确保可以稳定用于商业以及门户级的开发。

AltStyle によって変換されたページ (->オリジナル) /