Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

coder-syl/EySpider

Repository files navigation

EySpider

适合新手的基础爬虫框架

改自Python爬虫开发与项目实战(范传辉)

模块功能分析

  1. 爬虫调度器: 负责统筹其他四个模块的的协调工作
  2. URL管理器: 负责管理URL
  3. HTML下载器:负责网页的下载,分为动态页面和静态页面
  4. HTML解析器:负责网页的解析
  5. 数据存储器:负责数据的存储,里面封装了对没意思mysql数据库的存储

py文件简要介绍

  1. HtmlDownloader.py:

    1. 针对静态网页,使用Requests库
    2. 针对动态网页使用 selenium和phantomjs
  2. DataSave.py:

    使用pymysql 封装mysql的基本操作主要分装了插入操作

  3. EySpider

    使用示例

如何使用

直接下载,在HtmlParser.py文件中定制你的爬虫规则。

推荐使用Beautiful解析网页

在EySpider.py中统筹各个模块

如果觉得有点帮助,给个Star

About

简单的爬虫框架

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /