Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

KrisTSE/myCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

23 Commits

Repository files navigation

myCrawler

我的爬虫练习

doubanBook

爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。

bookSpiderXpath

"第一只爬虫"的lxml实现。因为lxml库用C实现,效率很高,而且支持xpath。所以做了一次练习。

bookCrawler2

爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。

bookCrawler3

上一个爬虫的全面升级。只爬取"编程"标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。

bookSearch

另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。

getWebpage

保存指定URL的页面到本地。

qiushibaike

爬取糗事百科的内容,输出到命令行。主要参考http://cuiqingcai.com/990.html ,略作修改。

proxyInfo

爬取某个代理页面的信息,输出到控制台。

tieba

根据《极客学院》的相关教程实现。使用多线程爬取百度贴吧的帖子信息。涉及到的技术见代码注释。

About

我的爬虫练习

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 76.1%
  • Python 23.9%

AltStyle によって変換されたページ (->オリジナル) /