Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

ZJsnowman/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

4 Commits

Repository files navigation

这是什么

  • 知乎
  • 伯乐在线(没有任何反爬,随便玩)
  • 天眼查

具体代码进入 spiders目录下对应的 py 文件

这里数据库采取的 mysql.pipline和 middleware 也都有常用的实现.可以根据自己需求更改一下 setting 文件中的设置

具体一些学习经验可以移步我的博客

知乎

通过 selenuim模拟登陆拿到 cookie, 支持后续页面使用 解决知乎插入数据库的时候主键冲突问题,通过 ON DUPLICATE KEY UPDATE 语句来实现更新 自行配置自己的账号密码

天眼查

这里提供了一个公司的列表文件.通过具体的公司名来进行索引的.你也可以替换成其他的.这里仅供展示

pipline

  • json 本地
  • mysql 异步同步

如果使用数据库,需要setting中配置自己的数据库信息

middleware

  • 随机更换 use_agent
  • 代理
  • selenium 模拟加载 知乎和天眼查均使用了 selenium模拟登陆,需要使用自己的账号密码进行替换

执行

进入main文件中,取消注释具体的行,来执行对应的爬虫,建议 Pycharm 运行

可能的问题

提交 issue 吧

About

爬虫

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /