Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

fire1213/SohuSpider-Java

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

4 Commits

Repository files navigation

搜狐新闻爬虫(Java版)

2017年5月2日

采用知乎上某位大牛的框架进行改写
没有使用任何其他框架
可以实现海量数据新闻去重,多线程
序列化url队列,暂停之后依然可以去重
本地测试已爬取40w+新闻

工程中的中的一些结构说明:
SohuSpider
--main.java 主程序入口函数
SohuSpider.count 数据库条目数量查询,单独main函数
SohuSpider.filter bloomFilter算法实现
SohuSpider.miniSpider ip代理采集爬虫
SohuSpider.service 爬虫主体部分
SohuSpider.util 一些json解析,请求网页等工具类

About

用java写的搜狐新闻爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

Languages

  • Java 100.0%

AltStyle によって変換されたページ (->オリジナル) /