Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟

License

Notifications You must be signed in to change notification settings

albert32/awesome-python-login-model

Repository files navigation

🎉Life is fantastic🥳!~


Master


"Did you know all your doors were locked?" - Riddick (The Chronicles of Riddick)


Branch Stars Forks License Awesome


Created by CriseLYJ


💕Website login model

🌟收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过selenium登录,有的是通过抓包直接模拟登录,有的是利用scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

About

模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。

虽然在登录的时候采用的是selenium,为了效率,我们可以在登录过后得到的cookie维护起来,然后调用requests或者scrapy等进行数据采集,这样数据采集的速度可以得到保证。

Completed

catalogue

Test

Bilibili自动登录测试正常,成功率98%

web微信

Alt text

图虫Spider

淘宝web

  • taobao.py为模拟登录
  • 剩下的文件为爬虫

Github

新增链家Spider

1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB
2. 通过pandas进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示

guoke.spider使用需谨慎,下载的比较快!10秒能下载一堆,截图我就不展示了,已经删除,东西太多了😝

微博

  • sina.py为模拟登录
  • spider文件夹中为爬虫
1. 输入要爬取的博主ID,获取ajax请求
2. 解析json数据,爬取博主所有微博,保存至MySQL

网易云音乐

  • 新增网易云音乐下载,之前的一个小demo应该还可以用,Crypto包应该挺难搞的,安装之后还是导入不了,推荐去百度一下,百度上的这个解决方法有很多,我就不多赘述了嘿嘿!

知乎

  • 知乎登录没有问题,不过要手动输入验证码

  • 知乎登录遇到"execjs._exceptions.ProgramError: TypeError: 'exports' 未定义"

  • 原因以及解决办法:

1. 由于是你本地的JScript引擎只有一个默认的JScript,所以会造成json未定义的错误。
2. execjs会自动使用当前电脑上的运行时环境
3. 解决办法:安装一个nodejs的V8引擎就可以了

糗事百科

tips of pull request

  • 欢迎大家一起来 pull request 💗

Problems

  • 关于验证码:本项目所用的方法都没有处理验证码,识别复杂验证码的难度就目前来说,还是比较大的。以我的心得来说,做爬虫最好的方式就是尽量规避验证码。
  • 代码失效:由于网站策略或者样式改变,导致代码失效,请给我提issue,如果你已经解决,可以提PR,谢谢!
  • 正在对部分代码进行优化。。。
  • 如果该repo对大家有帮助,给个star鼓励鼓励吧

Have something to say❗️❗️(Important)

  • 今天有人给我说了一些东西,他说:"你今天开源这些东西会让别人容易的反爬虫"。对,我知道,当然我很清楚这些,但是人生总是需要一些挑战不是吗?兄弟?我认为当我攻破他们防守的时刻,才是最刺激的,不是吗?如果没人反抗,我做这些才是真的毫无意义,只有真正的攻与守,才能促使我们进步,时代在变兄弟,科技也在变,安于现状,才是错误的根本原因!
  • 希望你们不要安于现状,生活处处是惊喜!

🎉Life is fantastic🥳! bro💪~

Acknowledgments

  • Thanks for all 🎉

联系我

注意:

  • 本项目仅用于学习和交流

欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远

About

😮python模拟登陆一些大型网站,还有一些简单的爬虫,希望对你们有所帮助❤️,如果喜欢记得给个star哦🌟

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%

AltStyle によって変換されたページ (->オリジナル) /