Skip to content

markkyle/Anti-Anti-Spider

Folders and files

Name		Name	Last commit message	Last commit date
Latest commit History 78 Commits
1.验证码		1.验证码
10.selenium		10.selenium
11.百度爬虫系列		11.百度爬虫系列
12.滑动破解系列--冷月		12.滑动破解系列--冷月
2.代理		2.代理
3.代码模板		3.代码模板
5.极验验证码资源汇总		5.极验验证码资源汇总
6.爬虫项目源码		6.爬虫项目源码
7.IP更换技术		7.IP更换技术
8.请求伪造		8.请求伪造
9.phantomjs		9.phantomjs
UrlSpider		UrlSpider
.DS_Store		.DS_Store
README.md		README.md
test		test
tree.txt		tree.txt
uptime.py		uptime.py

Repository files navigation

Anti-Anti-Spider

author@luyishisi

2016年10月24日 begin #2017年5月8日 end

爬虫的开源项目到现在半年差不多有900+的star了,,接下来就是要玩玩验证码破解了,定一个阶段性目标,前进!再建议一个开源项目,目标1000star!!

仓库网址位于https://github.com/luyishisi/Anti-Anti-Spider 欢迎stat

本项目由URLTEAM维护

作者博客 https://www.urlteam.org

项目简介:

运用请求伪造,浏览器伪造,浏览器自动化,图像处理,ip处理等方式进行反爬虫技术的通用化代码库,方便未来快速开发。

为以后的采集任务快速开展留下基础代码。

如今项目会包含多项技术的样例代码.

项目起因

本身是想做一个反爬虫的技术攻关站点,如果在总结诸多技术中发觉可以将反反爬虫技术直接保留与代码中。

在之后采集需要时能快速有效的测试该站点具有怎样的反爬特性,并且可以快速的进行代码复用

你可以做什么: 提交你觉得难以采集的网站联系方式: a83533774@gmail.com

项目结构树:(有待更新)

https://github.com/luyishisi/Anti-Anti-Spider/blob/master/tree.txt

重点项目:

1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}

2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}

3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}

5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}

6:ip跟换技术 {代理,tor,adsl}

7:请求伪造 {phantomjs,requests,selenium}

8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}

9:selenium {伪造请求头,支付宝模拟登陆}

UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}

About

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)

www.urlteam.org

Resources

Stars

Watchers

Forks

Report repository

Releases

No releases published

Packages

Contributors

Languages

HTML 77.5%
Python 21.3%
JavaScript 1.1%
Shell 0.1%