这是一个我写过的Python爬虫项目代码合集。This is a code collection of Python Spider projects I have written.
-
2018年10月10日第一次测试性的上传了 爬取房天下租房数据并用 pandas 保存为 csv 文件的代码 Fangtianxia.py。
-
2018年10月13日上传爬取全国主要城市、区县链家二手房相关数据的代码。
-
2018年10月16日上传爬取豆瓣电影TOP250 电影中文名、外文名、导演、主演、出品国家、类型、评分等电影数据的代码 https://movie.douban.com/top250?start=0&filter= ,并通过 pandas 保存为 .xlsx 文件
-
2018年10月25日上传 拉勾网职位列表信息与详情信息完美爬取-通过浏览器抓包分析实现的代码文件
-
2018年11月4日上传 拉勾网职位列表信息与详情信息完美爬取-通过selenium实现 其中分为两种写法的文件:
- 第一种,先爬取一页要搜索的拉勾网职位信息(如数据分析师)列表页中所有的职位详情页链接(15条),然后遍历这15条链接进行详情页爬取,最后再切回职位信息列表页进行翻页。见
lagou.py; - 第二种,先翻页爬取拉勾网数据分析师职位列表页中职位的所有详情页链接,存入到一个列表中 然后通过遍历详情页链接爬取职位信息。见
lagou_spider.py;
- 第一种,先爬取一页要搜索的拉勾网职位信息(如数据分析师)列表页中所有的职位详情页链接(15条),然后遍历这15条链接进行详情页爬取,最后再切回职位信息列表页进行翻页。见
-
2018年11月4日上传 爬取豆瓣电影短评 后来的我们并制作成词云的代码 doubanmc