51ma/java-spider

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.settings		.settings
ajaxDownloader		ajaxDownloader
doc		doc
examples		examples
log		log
src/main		src/main
.classpath		.classpath
.gitignore		.gitignore
.project		.project
.travis.yml		.travis.yml
README.md		README.md
pom.xml		pom.xml

Repository files navigation

JAVA爬虫框架实战

基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入生产试用中。

后台管理统计系统源码

体验系统地址:http://182.92.82.188:8280/manage/login.jsp

体验账号/密码,test1001/a12345678

后台系统源码:https://github.com/hemin1003/aylson-parent

关于我

欢迎交流问题,可加QQ469580884,一起探讨交流问题

我的博客地址

个人域名

参考项目资料如下:

欢迎使用 Gather Platform 数据采集与分析平台

Readme in English

详细使用方法请参考在线文档

Build Status

Gather Platform 数据抓取平台是一套基于Webmagic内核的,具有Web任务配置和任务管理界面的数据采集与搜索平台.具有以下功能

根据配置的模板进行数据采集,支持Ajax网页采集

在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间

动态字段抽取与静态字段植入

已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据

对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词

含有相关文章推荐,文章中人物、地点之间的关联关系分析

5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集.、

不需要进行任何编码就可以完成一个功能强大的爬虫.

show

Windows/Mac/Linux 全平台支持

本系统需要如下依赖:

JDK 8 及以上
Tomcat 8.3 及以上

可选依赖组件:

- Elasticsearch 5.0

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

About

一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入生产试用中。

Releases

No releases published

Packages

No packages published

Languages

Java 85.4%
JavaScript 14.6%

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

51ma/java-spider

Folders and files

Latest commit

History

Repository files navigation

JAVA爬虫框架实战

关于我

欢迎使用 Gather Platform 数据采集与分析平台

Windows/Mac/Linux 全平台支持

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Languages

51ma/java-spider

Folders and files

Latest commit

History

Repository files navigation

JAVA爬虫框架实战

关于我

欢迎使用 Gather Platform 数据采集与分析平台

Windows/Mac/Linux 全平台支持

部署、使用方法、二次开发手册、常见问题等全部迁移至在线文档

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages