项目介绍:
项目主要分为两个部分,第一部分是爬虫项目(Crawler文件夹)。
第二部分是编写代码时碰到的一些反爬机制以及思考过程,和最后的反反爬方法(anti-anti-Crawler)。
还有一个文件夹用来存放一些脚本和工具。
其中淘宝网抓取,求职网数据分析,拉钩分布式爬虫有详细介绍。
| 项目 |
简介 |
技术栈 |
| 淘宝网抓取 |
通过关键字搜索并且获取淘宝商品数据,存入csv文档 |
Selenium反爬 |
| 求职网数据分析 |
抓取前程无忧,实习僧招聘网站,存入csv进行数据清洗,降维,可视化 |
爬虫:多线程 + requests + bs4/lxml 可视化:jieba + W2V + PAC降维 + matplotlib + wordCloud |
| 拉钩分布式爬虫 |
拉勾网抓取,使用分布式框架,支持整站抓取,增量抓取,拉钩反爬 |
Scrapy-Redis |
| 拉勾网全站爬虫 |
抓取职位以及公司数据,可以存入csv文件或数据库 |
Scrapy + 整站抓取 |
| 图片网站图片爬取 |
图片网站整站抓取+定期增量抓取 |
Scrapy + requests + 增量抓取 |
| Steam热门游戏好评差评数量抓取 |
Steam抓取当前热门游戏的好评/差评数量,通过selenium突破认证并抓取canvas元素 |
Selenium + requests + bs4 |
| 天猫抓取 |
通过selenium突破反爬,抓取天猫商品数据存入csv |
Selenium反爬 |
具体分析过程以及流程图可以点开文件夹,其中有详细介绍。
重点解释了,知乎登陆倒立文字英文验证码突破,bilibili滑动验证码突破
| 工具 |
作用 |
| 屏幕坐标获取器 |
使用selenium分析滑动验证码时识别距离 |
| IP池构建 |
抓取免费IP代理存入数据库并检查可用性 |