35 Python 领域运用:网络爬虫_Python 进阶应用教程-慕课网

热搜

我的购物车

已加入门课程

购物车里空空如也

快去这里选购你中意的课程

抱歉,未找到你想要查询的结果

全部开发者教程

Python 进阶应用教程

01 Python 的对象和类 02 Python 类属性和实例属性 03 Python类的构造方法、析构方法、实例方法 04 Python 类的私有属性和私有方法 05 Python 类的继承和多继承 06 Python 类实战 07 Python 中的迭代器实现原理 08 Python 中的迭代器趣味实践 09 Python 中的生成器实现原理 10 Python 中的生成器趣味实践 11 Python 中的错误和异常 12 Python 中的异常处理 13 Python 中的模块 14 Python 标准库之 os 模块 15 Python 标准库之 sys 模块 16 Python 标准库之 math 模块 17 Python 标准库之 random 模块 18 Python 标准库之 Json 模块 19 Python 标准库 datetime 模块 20 Python 中的常用第三方模块 21 Python 中的命名空间 22 Python 中的作用域 23 Python 中的文件 IO 操作 24 Python 基础实战 25 Python 内置函数 26 Python 中使用正则表达式 27 使用 Python 操作 MySQL 数据库 28 使用 Python 操作 Mongo 数据库 29 使用 Python 操作 Redis 数据库 30 使用 Python 发送一封邮件 31 threading 之 Thread 的使用 32 threading 之 Lock 的基本使用 33 Python 生产者消费者模型 34 Python 的内存管理与垃圾回收 35 Python 领域运用:网络爬虫 36 Python 领域运用:Web 开发 37 Python 领域运用:自动化运维 38 Python 领域运用:自动化测试

前端开发

JavaScript

JavaScript 入门教程

本教程带你从初级到高级全面掌握 Javascript 的使用方法

TypeScript 入门教程

这是一个很好的简单课程,只需2小时你就可以学习TypeScript基础知识。

Vue 入门教程

本教程带您从零开始学习 Vue 框架的使用,让您轻松应对 Vue 项目的开发。

Ajax 入门教程

本教程涵盖Ajax的实现原理,及Ajax封装,最后是框架实现方法。

ES6-10 入门教程

对比 ES5 进行学习 ES6+,理解 ES6+ 语法背后的思想

Yarn 入门教程

Yarn得相关基础知识和高级进阶

ECharts 入门教程

从零开始学习 ECharts ,掌握 ECharts 核心内容
HTML & CSS

CSS3 入门教程

本课程从盒模型、文字、颜色、过渡、动画、布局、伪类等方面介绍 CSS3 的使用。

雪碧图入门教程

本文详细介绍了雪碧图的由来历史以及各种使用方式

移动端布局教程

由于移动互联网的兴起,移动端项目占据了很大一部分比重,本章将详细讲解几种常见布局

Html5 入门教程

最新一代的HTML标准,增加了许多实用的特性

Sass 入门教程

前端项目中 Sass 的快速入门教程

HTML 入门教程

从零讲解 HTML,掌握基础 HTML 知识内容

canvas 入门教程

本教程带你从初级到高级全面掌握canvas的使用方法

uni-app 入门教程

从零开始学习 uni-app 框架,轻松上手应用开发
服务端相关

服务器

Nginx 入门教程

本教程使您掌握 Nginx 安装、配置、核心模块的详解、实际使用的能力。

HTTP 入门教程

从协议原理开始到 Web 服务器以及 Web 安全一网打尽

Docker 入门教程

从 Docker 的基础概念开始,从实际问题入手带你学习 Docker

Shell 入门教程

本教程由浅入深,系统性的讲解Linux Shell脚本编程。

Linux 入门教程

本教程从安装 Linux 开始,囊括 Linux 基础命令操作以及进阶系统管理
开发工具

Gradle 入门教程

本教程使您掌握实际使用gradle进行项目构建、测试、打包、发布的能力。

Vim 编辑器教程

课程主要讲解Vim的安装配置,四种模式、基本操作,以及包管理工具和寄存器等内容。

RESTful 规范教程

本教程从什么是 REST 开始带你领略 Web 开发中无处不在的规范

Dreamweaver 教程

DW 是一款同时具有网页制作和网页管理功能的网站开发工具,可以快速进行网站建设

Markdown 入门教程

本课程涵盖 Markdown 的基本及扩展语法。

Maven 入门教程

从最基础的安装 Maven 开始到 Maven 在开发中的实际应用

Eclipse 编辑器教程

本教程从Eclipse安装开始带你轻松掌握Eclipse常用开发技巧

GitHub 入门教程

本教程带你轻松掌握最实用的 GitHub 知识

Android Studio 编辑器教程

Android Studio 编程技巧一网打尽

PyCharm 编辑器教程

工作经常用到的 PyCharm 编辑器使用技巧一网打尽

Sublime Text 使用教程

花里胡哨展示sublime编辑器的各种功能

Postman 教程

Postman 由Google 开发用来做接口请求测试,前后端开发人员都可以使用

Git入门教程

从入门到精通。
热门服务端语言

C 语言入门教程

本教程从语法基础、进阶知识等各方面详解 C 语言。

Go 入门教程

本教程从 Go 语言的基本语法掌握到进阶编程实践

Kotlin 教程

从 Kotlin 的基础语法到高级特性一网打尽

Ruby 入门教程

本教程从 Ruby 的各种对象开始学习到 Ruby 的实际使用

ThinkPHP 入门教程

本教程主要讲解 ThinkPHP 框架如何上手开发应用
Java

基础应用

Java 入门教程

深入浅出讲解 Java 语言基础知识,带你入门 Java 语言

Android 入门教程

为你解析最实用的 Android 技术,让你平滑上手,顺利进阶,为开发保驾护航

算法入门教程

分析讲解常见算法的思想及使用

数据结构入门教程

通俗易懂的带你了解 Java 数据结构

Lambda 表达式教程

本教程展现了Lambda表达式的基础语法以及在程序中的应用

Java 并发原理入门教程

本教程为Java并发原理入门教程,在Java程序开发中占据着举足轻重的地位

设计模式入门教程

带你分析最常见的九个设计模式

Java并发工具

本课程简洁明了展示最基本的并发工具类相关概念及应用方法。

JVM 入门教程

JVM 入门教程,对JVM结构进行分模块讲解,简单易懂。

RabbitMQ 入门教程

超系统的RabbitMQ基础知识课程,你还在等什么?

网络编程入门教程

Java 网络编程核心要点详解

后端通用面试教程

带你系统梳理后端高频面试题,轻松丰富你的校招&社招阶段
框架应用

Spring Boot 入门教程

循序渐进讲解 Spring Boot 企业级应用开发

Spring 入门教程

通俗易懂渐进式讲解 Spring 企业级开发应用

Hibernate 入门教程

由浅入深讲解 Hibernate 企业级 JDBC 应用框架

MyBatis 入门教程

本教程整理出"百分之二十"的知识,帮你办到"百分之八十"事情

Spring MVC 入门教程

通俗易懂讲解 Spring MVC 框架应用

Swagger 入门教程

本课程以图文并茂的方式带你学习 Swagger 核心知识和应用剖析

Zookeeper 入门教程

由浅入深的学习 ZooKeeper 的基本使用以及高级使用

Netty 教程

由浅入深的讲解 Netty 的核心知识体系,快速上手使用和理解 Netty

Spring Security

本课程涵盖了 Spring Security 框架的基本原理和集成方法
微服务

Spring Cloud Hystrix

系统介绍 Hystrix 支持特性与实际应用场景实战
Python

基础应用

Python 入门语法教程

本教程带你从 Python 的基础语法开始学习 Python。

Python 原生爬虫教程

本教程从爬虫基础知识到进阶技巧到实际应用。

Python 进阶应用教程

本教程涵盖 Python 的面向对象、标准库解析、异常处理直至最后的领域应用

Python 算法入门教程

用 Python 代码实现常用算法并汲取算法核心思想。
进阶方向应用

Django 入门教程

从 Web 基础到 Django 框架的实际开发应用

Flask 框架教程

Flask 框架快速入门实现一个 TodoList 功能

NumPy 入门教程

本教程从基础的数据类型开始到 NumPy 的高级应用一网打尽

Scrapy 入门教程

从爬虫基础开始到使用 Scrapy 框架抓取各大网站数据

TensorFlow 入门教程

通过本教程对 TensorFlow 框架快速入门

Python 办公自动化教程

本教程带你使用Python快速操作Excel、Word、PPT,处理各种文件

Pandas 入门教程

本教程从基础的数据类型开始到 Pandas 的高级应用一-网打尽
数据库

MySQL

MySQL 入门教程

本教程主要讲解 MySQL 增删改查等基础操作

SQL 入门教程

本教程讲解使用 SQL 访问和处理数据系统中的数据的方法。

MySQL 进阶教程

那些你还不理解的 MySQL 高阶特性一网打尽

首页慕课教程 Python 进阶应用教程 35 Python 领域运用:网络爬虫

朱广蔚 · 更新于 2020年07月20日

34 Python 的内存管理与垃圾回收

36 Python 领域运用:Web 开发

1. 爬虫简介

网络爬虫,又称为网页蜘蛛,是一种按照一定的规则、自动地抓取万维网信息的程序。爬虫是一个自动下载网页的程序,它有选择的访问万维网上的网页与相关的链接,获取所需要的信息。

爬虫有着广泛的应用:

搜索引擎,谷歌百度等搜索引擎使用爬虫抓取网站的页面
舆情分析与数据挖掘,通过抓取微博排行榜的文章,掌握舆情动向
数据聚合,比如企查查,抓取企业官网的详细信息
导购、价格比对,通过抓取购物网站的商品页面获取商品价格,为买家提供价格参考

在面向计算机专业的人才招聘市场上,以爬虫为关键字搜索,可以获得大量的职位招聘:

图片描述

2. 爬虫的工作原理

爬虫的工作原理如下:

从一个或若干初始网页的 URL 开始
自动下载初始网页上的 HTML 文件
分析 HTML 文件中包含的链接,爬取链接指向的网页
不断重复以上过程,直到达到某个条件时停止

下面以爬取慕课网的 wiki 为例,说明爬虫的工作原理:

图片描述

排虫程序选择 https://www.imooc.com/wiki 作为入口
下载网页 https://www.imooc.com/wiki 的内容,大致如下:

<html data-n-head-ssr>
 <head >
 <title>慕课网教程丨Wiki宝典</title>
 <meta name="description" content="慕课网wiki教程平台">
 </head>
 <body>
 <div>
 <div class="text">
 <a href="/wiki/Javascriptbase">JavaScript 入门教程</a> 
 <p><span>58小节</span>
 </div>
 <div class="text">
 <a href="/wiki/typescriptlession">TypeScript 入门教程</a> 
 <p><span>38小节</span>
 </div>
 <div class="text">
 <a href="/wiki/vuelession">Vue 入门教程</a> 
 <p><span>39小节</span>
 </div>
 </div> 
 </body>
</html>

分析 HTML 文件中的 a 标签,发现有如下 3 个 a 标签

<a href="/wiki/Javascriptbase">JavaScript 入门教程</a>
<a href="/wiki/typescriptlession">TypeScript 入门教程</a>
<a href="/wiki/vuelession">Vue 入门教程</a>

爬虫爬取以上 3 个 a 标签中的链接
不断重复以上步骤,可以将慕课网的全部 wiki 文章抓取到本地

3. 爬虫入门

3.1 基本的爬取技术

在互联网早期,网站的内容以静态的 HTML 文件为主,不带任何反爬虫措施。比如,要爬取某个博客站点的全部文章,首先获取网站的首页,就顺着首页的链接爬到文章页,再把文章的时间、作者、正文等信息保存下来。

使用 Python 的 requests 库就可以爬取由静态网页构成的网站:

使用 requests 库下载指定 URL 的网页
使用 XPath、BeautifulSoup 或者 PyQuery 对下载的 HTML 文件进行解析
- 获取 HTML 文件中特定的字段,例如文章的时间、标题等信息,将它们保存
- 获取 HTML 文件中包含的链接,并顺着链接爬取内容
爬取到数据后,可以使用 MySQL、MongoDB 等来保存数据,实现持久化存储,同时方便以后的查询操作

3.2 爬取客户端渲染的网页

在互联网早期,网站的内容都是一些简单的、静态的页面,服务器后端生成网页内容,然后返回给浏览器,浏览器获取 html 文件之后就可以直接解析展示了,这种生成 HTML 文件的方式被称为服务器端渲染。

而随着前端页面的复杂性提高,出现了基于 ajax 技术的前后端分离的开发模式,即后端不提供完整的 html 页面,而是提供一些 api 返回 json 格式的数据,前端调用后端的 API 获取 json 数据,在前端进行 html 页面的拼接,最后后展示在浏览器上,这种生成 HTML 文件的方式被称为客户端渲染。

简单的使用 requests 库无法爬取客户端渲染的页面:

requests 爬下来的页面内容并不包含真正的数据
只能通过调用后端的 API 才能获取页面的数据

有两种方式爬取客户端渲染的网页:

分析网页的调用后端 API 的接口

这种方法需要分析网站的 JavaScript 逻辑,找到调用后端 API 的的代码,分析 API 的相关参数。分析后再用爬虫模拟模拟调用后端 API,从而获取真正的数据。

很多情况下,后端 API 的接口接口带着加密参数,有可能花很长时间也无法破解,从而无法调用后端 API。

用模拟浏览器的方式来爬取数据

在无法解析后端 API 的调用方式的情况下,有一种简单粗暴的方法:直接用模拟浏览器的方式来爬取,比如用 Selenium、Splash 等库模拟浏览器浏览网页,这样爬取到的网页内容包含有真实的数据。这种方法绕过分析 JavaScript 代码逻辑的过程,大大降低了难度。

3.3 爬虫相关的库和框架

实现 HTTP 请求操作

urllib:提供操作 URL 的功能
requests:基于 urllib 的 HTTP 请求库,发出一个 HTTP 请求,等待服务器响应的网页
selenium:自动化测试工具,通过这个库调用浏览器完成某些操作,比如输入验证码

从网页中提取信息

beautifulsoup:对 html 和 XML 进行解析,从网页中提取信息
pyquery:jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档
lxml:对 html 和 XML 进行解析,支持 XPath 解析方式
tesserocr:一个 OCR 库,在遇到验证码的时候,可使用该库进行识别

爬虫框架

Scrapy:Scrapy 是用 python 实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据
PySpider: pyspider 是用 python 实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等
Newpaper: Newspaper可以用来提取新闻、文章和内容分析

4. 提升爬虫的效率

4.1 多任务爬虫

爬虫是 IO 密集型的任务,大多数情况下,爬虫都在等待网络的响应。如果使用用单线程的爬虫来抓取数据,爬虫必须等待当前页面抓取完毕后,才能请求抓取下一个网页。大型网站包含有数十万的网页,使用单线程抓取网页的速度是无法接受的。

使用多进程或者多线程的技术,爬虫可以同时请求多个网页,可以成倍地提高爬取速度。

假设爬虫需要获取 baidu.com、taobao.com、qq.com 首页,通过使用多线程技术,可以并行的抓取网页,代码如下:

import requests
import threading
def fetch(url):
 response = requests.get(url)
 print('Get %s: %s' % (url, response))
t0 = threading.Thread(target = fetch, args = ("https://www.baidu.com/",))
t1 = threading.Thread(target = fetch, args = ("https://www.taobao.com/",))
t2 = threading.Thread(target = fetch, args = ("https://www.qq.com/",))
t0.start()
t1.start()
t2.start()
t0.join()
t1.join()
t2.join()

函数 fetch,函数 fetch 获取指定 url 的网页
创建 3 个线程
- 线程 t0 调用 fetch 获取 baidu.com 首页
- 线程 t1 调用 fetch 获取 taobao.com 首页
- 线程 t2 调用 fetch 获取 qq.com 首页
线程是并行执行的,可以将抓取速度提高为原来的 3 倍

4.2 分布式爬虫

多线程、多进程能加速爬取速度,但终究还是单机的爬虫,性能提升有限。要爬取超大规模的网站,需要使用分布式爬虫。分布式爬虫把爬虫的关键功能部署到多台机器上,多台机器同时爬取数据。

下图展示了一种典型的分布式爬虫的架构:

图片描述

分布式爬虫的功能由 4 台机器承担:1 台 master 和 3 台 slave
分布式爬虫的关键是共享一个请求队列,请求队列保存了需要爬取的网页的 URL 地址
- 维护该队列的主机称为 master
- 负责数据的抓取、数据处理和数据存储的主机称为 slave
master 负责管理 slave 连接、任务调度与分发、结果回收并汇总等
slave 从 master 那里领取任务,并独自完成任务最后上传结果

划线
写笔记
复制

公开笔记 0/1000

34 Python 的内存管理与垃圾回收

36 Python 领域运用:Web 开发

我要提出意见反馈

· 最近更新于请填写更新时间

使用手机查看

热搜

最近搜索

我的购物车

已加入门课程

购物车里空空如也

Python 进阶应用教程

前端开发

JavaScript

JavaScript 入门教程

TypeScript 入门教程

Vue 入门教程

Ajax 入门教程

ES6-10 入门教程

Yarn 入门教程

ECharts 入门教程

HTML & CSS

CSS3 入门教程

雪碧图入门教程

移动端布局教程

Html5 入门教程

Sass 入门教程

HTML 入门教程

canvas 入门教程

uni-app 入门教程

服务端相关

服务器

Nginx 入门教程

HTTP 入门教程

Docker 入门教程

Shell 入门教程

Linux 入门教程

开发工具

Gradle 入门教程

Vim 编辑器教程

RESTful 规范教程

Dreamweaver 教程

Markdown 入门教程

Maven 入门教程

Eclipse 编辑器教程

GitHub 入门教程

Android Studio 编辑器教程

PyCharm 编辑器教程

Sublime Text 使用教程

Postman 教程

Git入门教程

热门服务端语言

C 语言入门教程

Go 入门教程

Kotlin 教程

Ruby 入门教程

ThinkPHP 入门教程

Java

基础应用

Java 入门教程

Android 入门教程

算法入门教程

数据结构入门教程

Lambda 表达式教程

Java 并发原理入门教程

设计模式入门教程

Java并发工具

JVM 入门教程

RabbitMQ 入门教程

网络编程入门教程

后端通用面试教程

框架应用

Spring Boot 入门教程

Spring 入门教程

Hibernate 入门教程

MyBatis 入门教程

Spring MVC 入门教程

Swagger 入门教程

Zookeeper 入门教程

Netty 教程

Spring Security

微服务

Spring Cloud Hystrix

Python

基础应用

Python 入门语法教程