Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Commit 67688f9

Browse files
committed
QA 15 added
1 parent d949eb4 commit 67688f9

2 files changed

Lines changed: 30 additions & 0 deletions

File tree

‎README.md‎

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -48,6 +48,7 @@
4848
| 2020年6月5日 | 第14讲:爬虫进阶之DOM树与XPath<br />摘要:DOM的基本概念,DOM树的基本概念,XPath的概念和基本语法,Chrome里XPath Helper扩展的使用,特定目标XPath的获取和精简,用lxml库实现网页源码的解析和XPath目标定位,基于XPath的页面信息分层抽取。<br />代码:[Jupyter Notebook](https://github.com/fly51fly/Practical_Python_Programming/blob/master/code/Python_Class_14.ipynb) | [L14.1](https://www.bilibili.com/video/BV1b7411N7P2?p=34) |
4949
| - | 第14讲答疑([问题列表](https://github.com/fly51fly/Practical_Python_Programming/blob/master/questions/question_014.md))<br />摘要:如何深入了解xpath、xpath能否完全代替正则表达式、大爬虫也需要对每个网页配置抽取表达式吗、访问图片时拒绝访问如何处理、xpath里的@href什么意思、xpath的绝对路径和相对路径有何区别、DOM树与C++的树一样吗、xpath与正则表达式适用场景如何效率比较及怎样选择、遇到具体变成问题怎么找解决方案、xpath helper安装不了怎么办、lxml解析为什么要解码、表格数据如何采集、DOM和xpath的关系、pycharm怎么安装lxml、爬虫在生活中的应用、豆瓣书名副标题的采集问题、包含子节点的节点如何获取全部文本、xpath能否用于普通字符串、beautifulsoup和lxml在解析方面有什么区别吗、python能提供网页服务吗、模型到底是什么、没有插件如何快速获取xpath等。 | [L14.2](https://www.bilibili.com/video/BV1b7411N7P2?p=35) |
5050
| 2020年6月12日 | 第15讲:翻页的爬取和采集目标分析方法<br />摘要:翻页链接的获取思路、末尾页链接的检测、程序的迭代改进、从解决问题的角度思考编程过程、培养对程序的"审美"、对特殊情况的推演思路、重用与可读性、url encode/quote的使用、对网站数据可用性和扩展渠道的考察。 | [L15.1](https://www.bilibili.com/video/BV1b7411N7P2?p=36) |
51+
| - | 第15讲答疑([问题列表](https://github.com/fly51fly/Practical_Python_Programming/blob/master/questions/question_015.md))<br />摘要:如何采集音乐网站并播放音乐、豆瓣爬虫能否为书做个类、翻页能否从最后往前翻、urllib库为什么没提供urldecode函数、采集的数据用什么形式存比较好、为什么翻页经常是start=0/20/40而不是page=1、搜索引擎也是爬虫吗、能否用正则实现翻页信息采集、采集信息不全时的解决思路、页面跳转如何采集、怎样将数据方便导入Excel、爬虫 vs. 镜像、做爬虫会违法吗、动态网页或局部刷新网页的爬取、爬虫翻页没有尾页的处理方式、这是最后一节课吗...... | [L15.2](https://www.bilibili.com/video/BV1b7411N7P2?p=37) |
5152

5253
1. [中文 Python 笔记](https://github.com/lijin-THU/notes-python)
5354
2. [千行代码入门Python](https://github.com/xianhu/LearnPython)

‎questions/question_015.md‎

Lines changed: 29 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,29 @@
1+
| 第15讲答疑&nbsp;问题列表 |
2+
|--------------|
3+
|是否可以实现让程序自己访问音乐网站然后播放里面的音乐?|
4+
|encoding要加url才能搜出来吗?|
5+
|爬虫过程中是否可以把书变成一个类,将每次采集到的信息存入一个书类中,再来可以对书籍进行分类排序等等操作|
6+
|能从最后一页向第一页翻吗|
7+
|urllib库为什么不提供urldecode函数|
8+
|爬到的数据该怎样储存好?是用txt还是其他的档案?|
9+
|想知道为什么网址中页数会是start=0、20、40这种start=20(page_id-1)的规律,而不是0、1、2这样的呢?是有什么特殊的意义吗?|
10+
|搜索引擎的原理也是爬虫吗,为什么我的爬虫运行起来很慢,而搜索引擎可以秒出结果|
11+
|怎么把收集到的数字信息做成一个表或者图形?|
12+
|所有由中文编码出来的串与网站url中的串都是相同的吗|
13+
|请问正则表达式能否也能实现类似翻页采集信息的功能呢?|
14+
|读取神经网络类所有图书的时候,发现信息不全的情况以后,老师是如何想到其他的办法去取数据的|
15+
|网页发生了页面跳转可以用爬虫提取内容么|
16+
|采集了很多数据,但比较乱,有没有什么快捷的方式将这些数据整理到Excel里面?|
17+
|las还有其的使用吗?|
18+
|爬虫运行的实际上是搜索以及复制粘贴的过程,那是否可以直接镜像复制该网站,并提高运行速度。|
19+
|翻页的操作是否可以一次同时获取几个页面的数据?就是一次输入几个页码,然后这几页的数据就同时出现|
20+
|目前公安实际情况中,对爬虫违法的界限是什么?爬虫从本质上就是更快速的手速,为什么会违法?|
21+
|怎么爬取动态变化的网页|
22+
|如果跳转页面里面还有链接,爬虫能读取里面的内容吗|
23+
|如何翻页爬取url不变的网站|
24+
|如何通过爬虫建立一个简单的搜索引擎?|
25+
|encode其他使用|
26+
|可以像小程序那样url接其他后端链接吗|
27+
|所有含页码网页都有start=吗|
28+
|请问老师,爬虫翻页的时候它没有给出尾页怎么办 那也没法判断终止啊|
29+
|这是最后一节课吗?下学期还会有你的python选修吗?|

0 commit comments

Comments
(0)

AltStyle によって変換されたページ (->オリジナル) /