本教程带你从初级到高级全面掌握 Javascript 的使用方法
这是一个很好的简单课程,只需2小时你就可以学习TypeScript基础知识。
本教程带您从零开始学习 Vue 框架的使用,让您轻松应对 Vue 项目的开发。
本教程涵盖Ajax的实现原理,及Ajax封装,最后是框架实现方法。
对比 ES5 进行学习 ES6+,理解 ES6+ 语法背后的思想
Yarn得相关基础知识和高级进阶
从零开始学习 ECharts ,掌握 ECharts 核心内容
本课程从盒模型、文字、颜色、过渡、动画、布局、伪类等方面介绍 CSS3 的使用。
本文详细介绍了雪碧图的由来历史以及各种使用方式
由于移动互联网的兴起,移动端项目占据了很大一部分比重,本章将详细讲解几种常见布局
最新一代的HTML标准,增加了许多实用的特性
前端项目中 Sass 的快速入门教程
从零讲解 HTML,掌握基础 HTML 知识内容
本教程带你从初级到高级全面掌握canvas的使用方法
从零开始学习 uni-app 框架,轻松上手应用开发
本教程使您掌握 Nginx 安装、配置、核心模块的详解、实际使用的能力。
从协议原理开始到 Web 服务器以及 Web 安全一网打尽
从 Docker 的基础概念开始,从实际问题入手带你学习 Docker
本教程由浅入深,系统性的讲解Linux Shell脚本编程。
本教程从安装 Linux 开始,囊括 Linux 基础命令操作以及进阶系统管理
本教程使您掌握实际使用gradle进行项目构建、测试、打包、发布的能力。
课程主要讲解Vim的安装配置,四种模式、基本操作,以及包管理工具和寄存器等内容。
本教程从什么是 REST 开始带你领略 Web 开发中无处不在的规范
DW 是一款同时具有网页制作和网页管理功能的网站开发工具,可以快速进行网站建设
本课程涵盖 Markdown 的基本及扩展语法。
从最基础的安装 Maven 开始到 Maven 在开发中的实际应用
本教程从Eclipse安装开始带你轻松掌握Eclipse常用开发技巧
本教程带你轻松掌握最实用的 GitHub 知识
Android Studio 编程技巧一网打尽
工作经常用到的 PyCharm 编辑器使用技巧一网打尽
花里胡哨展示sublime编辑器的各种功能
Postman 由Google 开发用来做接口请求测试,前后端开发人员都可以使用
从入门到精通。
本教程从语法基础、进阶知识等各方面详解 C 语言。
本教程从 Go 语言的基本语法掌握到进阶编程实践
从 Kotlin 的基础语法到高级特性一网打尽
本教程从 Ruby 的各种对象开始学习到 Ruby 的实际使用
本教程主要讲解 ThinkPHP 框架如何上手开发应用
深入浅出讲解 Java 语言基础知识,带你入门 Java 语言
为你解析最实用的 Android 技术,让你平滑上手,顺利进阶,为开发保驾护航
分析讲解常见算法的思想及使用
通俗易懂的带你了解 Java 数据结构
本教程展现了Lambda表达式的基础语法以及在程序中的应用
本教程为Java并发原理入门教程,在Java程序开发中占据着举足轻重的地位
带你分析最常见的九个设计模式
本课程简洁明了展示最基本的并发工具类相关概念及应用方法。
JVM 入门教程,对JVM结构进行分模块讲解,简单易懂。
超系统的RabbitMQ基础知识课程,你还在等什么?
Java 网络编程核心要点详解
带你系统梳理后端高频面试题,轻松丰富你的校招&社招阶段
循序渐进讲解 Spring Boot 企业级应用开发
通俗易懂 渐进式讲解 Spring 企业级开发应用
由浅入深讲解 Hibernate 企业级 JDBC 应用框架
本教程整理出"百分之二十"的知识,帮你办到"百分之八十"事情
通俗易懂讲解 Spring MVC 框架应用
本课程以图文并茂的方式带你学习 Swagger 核心知识和应用剖析
由浅入深的 学习 ZooKeeper 的基本使用以及高级使用
由浅入深的讲解 Netty 的核心知识体系,快速上手使用和理解 Netty
本课程涵盖了 Spring Security 框架的基本原理和集成方法
系统介绍 Hystrix 支持特性与实际应用场景实战
本教程带你从 Python 的基础语法开始学习 Python。
本教程从爬虫基础知识到进阶技巧到实际应用。
本教程涵盖 Python 的面向对象、标准库解析、异常处理直至最后的领域应用
用 Python 代码实现常用算法并汲取算法核心思想。
从 Web 基础到 Django 框架的实际开发应用
Flask 框架快速入门实现一个 TodoList 功能
本教程从基础的数据类型开始到 NumPy 的高级应用一网打尽
从爬虫基础开始到使用 Scrapy 框架抓取各大网站数据
通过本教程对 TensorFlow 框架快速入门
本教程带你使用Python快速操作Excel、Word、PPT,处理各种文件
本教程从基础的数据类型开始到 Pandas 的高级应用一-网打尽
本教程主要讲解 MySQL 增删改查等基础操作
本教程讲解使用 SQL 访问和处理数据系统中的数据的方法。
那些你还不理解的 MySQL 高阶特性一网打尽
网络爬虫,又称为网页蜘蛛,是一种按照一定的规则、自动地抓取万维网信息的程序。爬虫是一个自动下载网页的程序,它有选择的访问万维网上的网页与相关的链接,获取所需要的信息。
爬虫有着广泛的应用:
在面向计算机专业的人才招聘市场上,以爬虫为关键字搜索,可以获得大量的职位招聘:
图片描述
爬虫的工作原理如下:
下面以爬取慕课网的 wiki 为例,说明爬虫的工作原理:
图片描述
排虫程序选择 https://www.imooc.com/wiki 作为入口
下载网页 https://www.imooc.com/wiki 的内容,大致如下:
<html data-n-head-ssr>
<head >
<title>慕课网教程丨Wiki宝典</title>
<meta name="description" content="慕课网wiki教程平台">
</head>
<body>
<div>
<div class="text">
<a href="/wiki/Javascriptbase">JavaScript 入门教程</a>
<p><span>58小节</span>
</div>
<div class="text">
<a href="/wiki/typescriptlession">TypeScript 入门教程</a>
<p><span>38小节</span>
</div>
<div class="text">
<a href="/wiki/vuelession">Vue 入门教程</a>
<p><span>39小节</span>
</div>
</div>
</body>
</html>
爬虫爬取以上 3 个 a 标签中的链接
不断重复以上步骤,可以将慕课网的全部 wiki 文章抓取到本地
在互联网早期,网站的内容以静态的 HTML 文件为主,不带任何反爬虫措施。比如,要爬取某个博客站点的全部文章,首先获取网站的首页,就顺着首页的链接爬到文章页,再把文章的时间、作者、正文等信息保存下来。
使用 Python 的 requests 库就可以爬取由静态网页构成的网站:
在互联网早期,网站的内容都是一些简单的、静态的页面,服务器后端生成网页内容,然后返回给浏览器,浏览器获取 html 文件之后就可以直接解析展示了,这种生成 HTML 文件的方式被称为服务器端渲染。
而随着前端页面的复杂性提高,出现了基于 ajax 技术的前后端分离的开发模式,即后端不提供完整的 html 页面,而是提供一些 api 返回 json 格式的数据,前端调用后端的 API 获取 json 数据,在前端进行 html 页面的拼接,最后后展示在浏览器上,这种生成 HTML 文件的方式被称为客户端渲染。
简单的使用 requests 库无法爬取客户端渲染的页面:
有两种方式爬取客户端渲染的网页:
这种方法需要分析网站的 JavaScript 逻辑,找到调用后端 API 的的代码,分析 API 的相关参数。分析后再用爬虫模拟模拟调用后端 API,从而获取真正的数据。
很多情况下,后端 API 的接口接口带着加密参数,有可能花很长时间也无法破解,从而无法调用后端 API。
在无法解析后端 API 的调用方式的情况下,有一种简单粗暴的方法:直接用模拟浏览器的方式来爬取,比如用 Selenium、Splash 等库模拟浏览器浏览网页,这样爬取到的网页内容包含有真实的数据。这种方法绕过分析 JavaScript 代码逻辑的过程,大大降低了难度。
Scrapy:Scrapy 是用 python 实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据
PySpider: pyspider 是用 python 实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等
Newpaper: Newspaper可以用来提取新闻、文章和内容分析
爬虫是 IO 密集型的任务,大多数情况下,爬虫都在等待网络的响应。如果使用用单线程的爬虫来抓取数据,爬虫必须等待当前页面抓取完毕后,才能请求抓取下一个网页。大型网站包含有数十万的网页,使用单线程抓取网页的速度是无法接受的。
使用多进程或者多线程的技术,爬虫可以同时请求多个网页,可以成倍地提高爬取速度。
假设爬虫需要获取 baidu.com、taobao.com、qq.com 首页,通过使用多线程技术,可以并行的抓取网页,代码如下:
import requests
import threading
def fetch(url):
response = requests.get(url)
print('Get %s: %s' % (url, response))
t0 = threading.Thread(target = fetch, args = ("https://www.baidu.com/",))
t1 = threading.Thread(target = fetch, args = ("https://www.taobao.com/",))
t2 = threading.Thread(target = fetch, args = ("https://www.qq.com/",))
t0.start()
t1.start()
t2.start()
t0.join()
t1.join()
t2.join()
多线程、多进程能加速爬取速度,但终究还是单机的爬虫,性能提升有限。要爬取超大规模的网站,需要使用分布式爬虫。分布式爬虫把爬虫的关键功能部署到多台机器上,多台机器同时爬取数据。
下图展示了一种典型的分布式爬虫的架构:
图片描述
0/1000