Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

HunterChao/Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

6 Commits

Repository files navigation

本仓库下包括拉钩、豆瓣和链家三个爬虫

拉钩抓取全部公司介绍信息

运行文件为lagou.py,由于拉钩网对ip有限制,采用更换代理ip的形式进行反爬虫,0103.txt为可用的代理ip,运行时lagou.py随机使用代理ip
拉钩抓取数据部分截图

链家抓取二手房信息数据

采用scrapy框架抓取,运行文件为run.py,在控制台下直接运行即可,无需在cmd下启动
链家爬取数据部分截图

链家项目的详细介绍请见知乎专栏:https://zhuanlan.zhihu.com/p/25132058?refer=pythoncrawl

豆瓣电影信息抓取

按电影分类爬取豆瓣上全部电影信息,共87000余条数据。
包括读取电影分类信息GetPage.py,爬取各类别下电影详情介绍FullContents.py。
豆瓣电影信息的详细介绍请见知乎专栏:https://zhuanlan.zhihu.com/p/24771128?refer=pythoncrawl

About

拉钩 | 豆瓣 | 链家爬虫项目的合集

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /