Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

prefect12/PythonCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

200 Commits

Repository files navigation

个人Python爬虫项目展示

项目介绍: 项目主要分为两个部分,第一部分是爬虫项目(Crawler文件夹)。 第二部分是编写代码时碰到的一些反爬机制以及思考过程,和最后的反反爬方法(anti-anti-Crawler)。
还有一个文件夹用来存放一些脚本和工具。


爬虫项目

其中淘宝网抓取,求职网数据分析,拉钩分布式爬虫有详细介绍。

项目 简介 技术栈
淘宝网抓取 通过关键字搜索并且获取淘宝商品数据,存入csv文档 Selenium反爬
求职网数据分析 抓取前程无忧,实习僧招聘网站,存入csv进行数据清洗,降维,可视化 爬虫:多线程 + requests + bs4/lxml 可视化:jieba + W2V + PAC降维 + matplotlib + wordCloud
拉钩分布式爬虫 拉勾网抓取,使用分布式框架,支持整站抓取,增量抓取,拉钩反爬 Scrapy-Redis
拉勾网全站爬虫 抓取职位以及公司数据,可以存入csv文件或数据库 Scrapy + 整站抓取
图片网站图片爬取 图片网站整站抓取+定期增量抓取 Scrapy + requests + 增量抓取
Steam热门游戏好评差评数量抓取 Steam抓取当前热门游戏的好评/差评数量,通过selenium突破认证并抓取canvas元素 Selenium + requests + bs4
天猫抓取 通过selenium突破反爬,抓取天猫商品数据存入csv Selenium反爬

反爬项目

具体分析过程以及流程图可以点开文件夹,其中有详细介绍。 重点解释了,知乎登陆倒立文字英文验证码突破,bilibili滑动验证码突破

项目 技巧
bilibili滑动验证码突破 Selenium模拟操作
去哪儿网css偏移反爬突破 css分析
实习僧字体映射反爬突破 css分析
知乎登陆倒立文字英文验证码突破 selenium+验证码识别(zheye+超级鹰)

工具(/tools)

工具 作用
屏幕坐标获取器 使用selenium分析滑动验证码时识别距离
IP池构建 抓取免费IP代理存入数据库并检查可用性

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

AltStyle によって変換されたページ (->オリジナル) /