prefect12/PythonCrawler

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 200 Commits
Crawler		Crawler
anti-anti-Crawler		anti-anti-Crawler
tools		tools
README.md		README.md

Repository files navigation

个人Python爬虫项目展示

项目介绍: 项目主要分为两个部分,第一部分是爬虫项目(Crawler文件夹)。第二部分是编写代码时碰到的一些反爬机制以及思考过程,和最后的反反爬方法(anti-anti-Crawler)。
还有一个文件夹用来存放一些脚本和工具。

爬虫项目

其中淘宝网抓取,求职网数据分析,拉钩分布式爬虫有详细介绍。

项目	简介	技术栈
淘宝网抓取	通过关键字搜索并且获取淘宝商品数据,存入csv文档	Selenium反爬
求职网数据分析	抓取前程无忧,实习僧招聘网站,存入csv进行数据清洗,降维,可视化	爬虫:多线程 + requests + bs4/lxml 可视化:jieba + W2V + PAC降维 + matplotlib + wordCloud
拉钩分布式爬虫	拉勾网抓取,使用分布式框架,支持整站抓取,增量抓取,拉钩反爬	Scrapy-Redis
拉勾网全站爬虫	抓取职位以及公司数据,可以存入csv文件或数据库	Scrapy + 整站抓取
图片网站图片爬取	图片网站整站抓取+定期增量抓取	Scrapy + requests + 增量抓取
Steam热门游戏好评差评数量抓取	Steam抓取当前热门游戏的好评/差评数量,通过selenium突破认证并抓取canvas元素	Selenium + requests + bs4
天猫抓取	通过selenium突破反爬,抓取天猫商品数据存入csv	Selenium反爬

反爬项目

具体分析过程以及流程图可以点开文件夹,其中有详细介绍。重点解释了,知乎登陆倒立文字英文验证码突破,bilibili滑动验证码突破

项目	技巧
bilibili滑动验证码突破	Selenium模拟操作
去哪儿网css偏移反爬突破	css分析
实习僧字体映射反爬突破	css分析
知乎登陆倒立文字英文验证码突破	selenium+验证码识别(zheye+超级鹰)

工具(/tools)

工具	作用
屏幕坐标获取器	使用selenium分析滑动验证码时识别距离
IP池构建	抓取免费IP代理存入数据库并检查可用性

About

No description, website, or topics provided.

Releases

No releases published

Packages

No packages published

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

prefect12/PythonCrawler

Folders and files

Latest commit

History

Repository files navigation

个人Python爬虫项目展示

爬虫项目

反爬项目

工具(/tools)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages

Uh oh!

Languages

prefect12/PythonCrawler

Folders and files

Latest commit

History

Repository files navigation

个人Python爬虫项目展示

爬虫项目

反爬项目

工具(/tools)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages