Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

ouchao/level1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

7 Commits

Repository files navigation

level1

csdn3:

这是一个多进程爬取csdn所有用户的blog文章的程序,爬取后可以自动插入到我的另一个项目http://shuipfcms.ouchaonihao.com/ 中,

a链接爬取进程: 该程序开启多个进程爬取起始链接‘blog.csdn.net’,使用消息队列的机制不断提取a链接放入到爬取队列,然后分析该地址是否是用户blog地址 如符合规则将该地址放到另一个用户队列,该类进程的处理机制为: 从a链接队列中获一条数据(为url地址)->获取该url地址中的所有a链接->判断该地址是否爬取过->判断是否是环路->插入该队列->分析该条数据是用户blog地址->插入用户blog队列。

用户blog爬取进程: 该类进程将开启多个进程同时读取用户blog队列,该类进程处理机制大概如下: 从用户blog队列获取一条数据(用户的blog url地址)->获取该用户的所有文章列表->获取用户相关信息生成一条json数据,将该数据放到content队列中。

conten爬取进程: 该类进程将开启多个进程同时读取content队列,该类进程处理机制大概如下: 从content队列获取一条数据(一个用户相关的所用文章的url地址)->获取文章正文、标题、时间、分类等信息->格式化数据->将数据插入到项目目http://shuipfcms.ouchaonihao.com/ 中。

关闭与启动: 该程序在关闭时将会把该程序爬取过的所有信息保存为本地信息(将保存在workdir/data中),在下次启动该程序是将会自动加载该类信息到内存,程序将不会爬取以前爬取过的数据。

日志: 所有日志到保存在workdir/log下。

本地数据: 抓取的每个有用户的数据将保存到workdir/users/用户名.json

mongodb: 该程序包含将数据插入mongodb数据库的功能。默认没有开启.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

Languages

AltStyle によって変換されたページ (->オリジナル) /