Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟

License

Notifications You must be signed in to change notification settings

SysuJayce/awesome-python-login-model

Repository files navigation

🎉Life is fantastic🥳!~


Master


"Did you know all your doors were locked?" - Riddick (The Chronicles of Riddick)


Branch Stars Forks License Awesome


Created by CriseLYJ


🌟Website_login_mode

🌟收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过selenium登录,有的是通过抓包直接模拟登录,有的是利用scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

联系我

Have something to say (Important) ❗️❗️

  • 今天有人给我说了一些东西,他说:"你今天开源这些东西会让别人容易的反爬虫"。对,我知道,当然我很清楚这些,但是人生总是需要一些挑战不是吗?兄弟?可能有些我为了破解它们花费了很多的时间,但是当我攻破他们防守的时刻,才是最刺激的,不是吗?如果没人反抗,我做这些才是真的毫无意义,只有真正的攻与守,才能促使我们进步,时代在变兄弟,科技也在变,安于现状,才是错误的根本原因!我会持续维护此网站,接受所有的挑战!
  • 希望你们不要安于现状,生活处处是惊喜!

🎉Life is fantastic🥳! bro💪~

About

模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。

虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。

Completed

show

Bilibili自动登录测试正常,成功率98%

web微信

Alt text

图虫爬虫

淘宝web

  • taobao.py为模拟登录
  • 剩下的文件为爬虫

Github

新增链家Spider

1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB
2. 通过pandas进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示

guoke.spider使用需谨慎,下载的比较快!10秒能下载一堆,截图我就不展示了,已经删除,东西太多了😝

微博

  • sina.py为模拟登录
  • spider文件夹中为爬虫
1. 输入要爬取的博主ID,获取ajax请求
2. 解析json数据,爬取博主所有微博,保存至MySQL

网易云音乐

  • 新增网易云音乐下载,之前的一个小demo应该还可以用,Crypto包应该挺难搞的,安装之后还是导入不了,推荐去百度一下,百度上的这个解决方法有很多,我就不多赘述了嘿嘿!

知乎

  • 知乎登录没有问题,不过要手动输入验证码

tips of pull request

  • 欢迎大家一起来 pull request 💗

Problems

  • 关于验证码:本项目所用的方法都没有处理验证码,识别复杂验证码的难度就目前来说,还是比较大的。以我的心得来说,做爬虫最好的方式就是尽量规避验证码。
  • 代码失效:由于网站策略或者样式改变,导致代码失效,请给我提issue,如果你已经解决,可以提PR,谢谢!

Another

  • 如果你有什么比较难登陆的网站,比如发现用了selenium+webdriver都还登陆不了的网站,欢迎给我提issue
  • 如果该repo对大家有帮助,给个star鼓励鼓励吧

something to add

  1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
  2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出
  3. 如果网站的登录很有意思,我会在后面的更新中加入
  4. 网站的登录机制有可能经常的变动,所以当现在的模拟的登录的规则不能使用的时候,请在 issue 中提出
  • 如果关注量大的话,我还是会不断维护此仓库带来更多的东西,并且重构代码,

Acknowledgments

Thanks for all!

再次感谢所有支持我的人---

Written at the end

  • I need your support.
  • And I think you can give me a 🌟star!

About

😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%

AltStyle によって変換されたページ (->オリジナル) /