18
18
* [ HTTP 请求] ( #http-请求 )
19
19
* [ HTTP 响应] ( #http-响应 )
20
20
* [ HTTPS] ( #https )
21
-
22
21
# 爬虫预备知识
23
22
> 爬虫课程中所需要的相关知识储备
24
23
127
126
>
128
127
> HTTP1.1 新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。
129
128
130
- 请求方式 | 描述
131
- ---------|
132
- GET | 请求指定的页面信息,并返回实体主体。
133
- HEAD | 类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头
134
- POST | 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。
135
- PUT | 从客户端向服务器传送的数据取代指定的文档的内容
136
- DELETE | 请求服务器删除指定的页面。
137
- CONNECT | HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。
138
- OPTIONS | 允许客户端查看服务器的性能。
139
- TRACE | 回显服务器收到的请求,主要用于测试或诊断。
129
+ | 请求方式 | 描述|
130
+ | --------- | --------------------------------------------------------------------------------------------------------------------------------- ---------|
131
+ | GET | 请求指定的页面信息,并返回实体主体。|
132
+ | HEAD | 类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头|
133
+ | POST | 向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。|
134
+ | PUT | 从客户端向服务器传送的数据取代指定的文档的内容|
135
+ | DELETE | 请求服务器删除指定的页面。|
136
+ | CONNECT | HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。|
137
+ | OPTIONS | 允许客户端查看服务器的性能。|
138
+ | TRACE | 回显服务器收到的请求,主要用于测试或诊断。|
140
139
141
140
- ** 常见请求头**
142
141
143
- 请求头 | 作用
144
- ----------------------------------|
145
- ** Cookie** | Cookie
146
- ** User-Agent** | 浏览器名称
147
- ** Referer** | 页面跳转处
148
- Host | 主机和端口号
149
- Connection | 链接类型
150
- Upgrade-Insecure-Requests | 升级为 HTTPS 请求
151
- Accept | 传输文件类型
152
- Accept-Encoding | 文件编解码格式
153
- x-requested-with : XMLHttpRequest | ajax 请求
142
+ | 请求头 | 作用|
143
+ | ----------------------------------- | -------------------|
144
+ | ** Cookie** | Cookie|
145
+ | ** User-Agent** | 浏览器名称|
146
+ | ** Referer** | 页面跳转处|
147
+ | Host | 主机和端口号|
148
+ | Connection | 链接类型|
149
+ | Upgrade-Insecure-Requests | 升级为 HTTPS 请求|
150
+ | Accept | 传输文件类型|
151
+ | Accept-Encoding | 文件编解码格式|
152
+ | x-requested-with : XMLHttpRequest | ajax 请求|
154
153
155
154
[ 点击查看更多] ( https://github.com/CriseLYJ/Python-crawler-tutorial-starts-from-zero/blob/master/HTTP%E8%AF%B7%E6%B1%82%E5%88%97%E8%A1%A8.md )
156
155
@@ -164,14 +163,14 @@ x-requested-with : XMLHttpRequest | ajax 请求
164
163
- ** 响应头**
165
164
166
165
167
- 响应头 | 作用
168
- ---------------|
169
- ** Location** | 这个头配合 302 状态码使用,告诉用户端找谁。
170
- ** Set-Cookie** | 设置和页面关联的 Cookie
171
- Content-Type | 服务器通过这个头,回送数据的类型
172
- Server | 服务器通过这个头,告诉浏览器服务器的类型
173
- Content-Length | 服务器通过这个头,告诉浏览器回送数据的长度
174
- Connection | 服务器通过这个头,响应完是保持链接还是关闭链接
166
+ | 响应头 | 作用|
167
+ | ---------------- | --------------------------------- ---------------|
168
+ | ** Location** | 这个头配合 302 状态码使用,告诉用户端找谁。|
169
+ | ** Set-Cookie** | 设置和页面关联的 Cookie|
170
+ | Content-Type | 服务器通过这个头,回送数据的类型|
171
+ | Server | 服务器通过这个头,告诉浏览器服务器的类型|
172
+ | Content-Length | 服务器通过这个头,告诉浏览器回送数据的长度|
173
+ | Connection | 服务器通过这个头,响应完是保持链接还是关闭链接|
175
174
176
175
- ** HTTP 状态码**
177
176
@@ -181,13 +180,13 @@ Connection | 服务器通过这个头,响应完是保持链接还是关闭
181
180
>
182
181
> HTTP 状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP 状态码共分为 5 种类型
183
182
184
- 分类 | 分类描述
185
- -----|
186
- 1** | 信息,服务器收到请求,需要请求者继续执行操作
187
- 2** | 成功,操作被成功接收并处理
188
- 3** | 重定向,需要进一步的操作以完成请求
189
- 4** | 客户端错误,请求包含语法错误或无法完成请求
190
- 5** | 服务器错误,服务器在处理请求的过程中发生了错误
183
+ | 分类 | 分类描述|
184
+ | ------ | ------------------------------------------- -----|
185
+ | 1** | 信息,服务器收到请求,需要请求者继续执行操作|
186
+ | 2** | 成功,操作被成功接收并处理|
187
+ | 3** | 重定向,需要进一步的操作以完成请求|
188
+ | 4** | 客户端错误,请求包含语法错误或无法完成请求|
189
+ | 5** | 服务器错误,服务器在处理请求的过程中发生了错误|
191
190
192
191
- 常见的 HTTP 状态码:
193
192
- 200 - 请求成功
0 commit comments