Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

plough/myCrawler

Repository files navigation

myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。

bookSpiderXpath

"第一只爬虫"的lxml实现。因为lxml库用C实现,效率很高,而且支持xpath。所以做了一次练习。

bookCrawler2

爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。

bookCrawler3

上一个爬虫的全面升级。只爬取"编程"标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。

bookSearch

另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。

getWebpage

保存指定URL的页面到本地。

qiushibaike

爬取糗事百科的内容,输出到命令行。主要参考http://cuiqingcai.com/990.html ,略作修改。

proxyInfo

爬取某个代理页面的信息,输出到控制台。

srtpInfo

爬取学校网站的srtp讲座信息。

tieba

根据《极客学院》的相关教程实现。使用多线程爬取百度贴吧的帖子信息。涉及到的技术见代码注释。

bdbaike

爬取百度百科10个词条的简介。代码来自慕课网,略作修改。很多地方和之前做过的练习不一样,有一定参考价值。

baiduTranslate

模拟post请求,调用百度翻译接口。难度不大,却很实用

About

我的爬虫练习

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

AltStyle によって変換されたページ (->オリジナル) /