Commit 67688f9

committed

QA 15 added

1 parent d949eb4 commit 67688f9Copy full SHA for 67688f9

2 files changed

Lines changed: 30 additions & 0 deletions

File tree

README.md
questions
- question_015.md

`‎README.md‎`

Lines changed: 1 addition & 0 deletions

Original file line number	Diff line number	Diff line change
`@@ -48,6 +48,7 @@`
`48`	`48`	\| 2020年6月5日 \| 第14讲:爬虫进阶之DOM树与XPath<br />摘要:DOM的基本概念,DOM树的基本概念,XPath的概念和基本语法,Chrome里XPath Helper扩展的使用,特定目标XPath的获取和精简,用lxml库实现网页源码的解析和XPath目标定位,基于XPath的页面信息分层抽取。<br />代码:[Jupyter Notebook](https://github.com/fly51fly/Practical_Python_Programming/blob/master/code/Python_Class_14.ipynb) \| [L14.1](https://www.bilibili.com/video/BV1b7411N7P2?p=34) \|
`49`	`49`	\| - \| 第14讲答疑([问题列表](https://github.com/fly51fly/Practical_Python_Programming/blob/master/questions/question_014.md))<br />摘要:如何深入了解xpath、xpath能否完全代替正则表达式、大爬虫也需要对每个网页配置抽取表达式吗、访问图片时拒绝访问如何处理、xpath里的@href什么意思、xpath的绝对路径和相对路径有何区别、DOM树与C++的树一样吗、xpath与正则表达式适用场景如何效率比较及怎样选择、遇到具体变成问题怎么找解决方案、xpath helper安装不了怎么办、lxml解析为什么要解码、表格数据如何采集、DOM和xpath的关系、pycharm怎么安装lxml、爬虫在生活中的应用、豆瓣书名副标题的采集问题、包含子节点的节点如何获取全部文本、xpath能否用于普通字符串、beautifulsoup和lxml在解析方面有什么区别吗、python能提供网页服务吗、模型到底是什么、没有插件如何快速获取xpath等。 \| [L14.2](https://www.bilibili.com/video/BV1b7411N7P2?p=35) \|
`50`	`50`	`\| 2020年6月12日 \| 第15讲:翻页的爬取和采集目标分析方法<br />摘要:翻页链接的获取思路、末尾页链接的检测、程序的迭代改进、从解决问题的角度思考编程过程、培养对程序的"审美"、对特殊情况的推演思路、重用与可读性、url encode/quote的使用、对网站数据可用性和扩展渠道的考察。 \| [L15.1](https://www.bilibili.com/video/BV1b7411N7P2?p=36) \|`
	`51`	+\| - \| 第15讲答疑([问题列表](https://github.com/fly51fly/Practical_Python_Programming/blob/master/questions/question_015.md))<br />摘要:如何采集音乐网站并播放音乐、豆瓣爬虫能否为书做个类、翻页能否从最后往前翻、urllib库为什么没提供urldecode函数、采集的数据用什么形式存比较好、为什么翻页经常是start=0/20/40而不是page=1、搜索引擎也是爬虫吗、能否用正则实现翻页信息采集、采集信息不全时的解决思路、页面跳转如何采集、怎样将数据方便导入Excel、爬虫 vs. 镜像、做爬虫会违法吗、动态网页或局部刷新网页的爬取、爬虫翻页没有尾页的处理方式、这是最后一节课吗...... \| [L15.2](https://www.bilibili.com/video/BV1b7411N7P2?p=37) \|
`51`	`52`
`52`	`53`	`1. [中文 Python 笔记](https://github.com/lijin-THU/notes-python)`
`53`	`54`	`2. [千行代码入门Python](https://github.com/xianhu/LearnPython)`

`‎questions/question_015.md‎`

Lines changed: 29 additions & 0 deletions

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,29 @@`
	`1`	`+\| 第15讲答疑 问题列表 \|`
	`2`	`+\|--------------\|`
	`3`	`+\|是否可以实现让程序自己访问音乐网站然后播放里面的音乐?\|`
	`4`	`+\|encoding要加url才能搜出来吗?\|`
	`5`	`+\|爬虫过程中是否可以把书变成一个类,将每次采集到的信息存入一个书类中,再来可以对书籍进行分类排序等等操作\|`
	`6`	`+\|能从最后一页向第一页翻吗\|`
	`7`	`+\|urllib库为什么不提供urldecode函数\|`
	`8`	`+\|爬到的数据该怎样储存好?是用txt还是其他的档案?\|`
	`9`	`+\|想知道为什么网址中页数会是start=0、20、40这种start=20(page_id-1)的规律,而不是0、1、2这样的呢?是有什么特殊的意义吗?\|`
	`10`	`+\|搜索引擎的原理也是爬虫吗,为什么我的爬虫运行起来很慢,而搜索引擎可以秒出结果\|`
	`11`	`+\|怎么把收集到的数字信息做成一个表或者图形?\|`
	`12`	`+\|所有由中文编码出来的串与网站url中的串都是相同的吗\|`
	`13`	`+\|请问正则表达式能否也能实现类似翻页采集信息的功能呢?\|`
	`14`	`+\|读取神经网络类所有图书的时候,发现信息不全的情况以后,老师是如何想到其他的办法去取数据的\|`
	`15`	`+\|网页发生了页面跳转可以用爬虫提取内容么\|`
	`16`	`+\|采集了很多数据,但比较乱,有没有什么快捷的方式将这些数据整理到Excel里面?\|`
	`17`	`+\|las还有其的使用吗?\|`
	`18`	`+\|爬虫运行的实际上是搜索以及复制粘贴的过程,那是否可以直接镜像复制该网站,并提高运行速度。\|`
	`19`	`+\|翻页的操作是否可以一次同时获取几个页面的数据?就是一次输入几个页码,然后这几页的数据就同时出现\|`
	`20`	`+\|目前公安实际情况中,对爬虫违法的界限是什么?爬虫从本质上就是更快速的手速,为什么会违法?\|`
	`21`	`+\|怎么爬取动态变化的网页\|`
	`22`	`+\|如果跳转页面里面还有链接,爬虫能读取里面的内容吗\|`
	`23`	`+\|如何翻页爬取url不变的网站\|`
	`24`	`+\|如何通过爬虫建立一个简单的搜索引擎?\|`
	`25`	`+\|encode其他使用\|`
	`26`	`+\|可以像小程序那样url接其他后端链接吗\|`
	`27`	`+\|所有含页码网页都有start=吗\|`
	`28`	`+\|请问老师,爬虫翻页的时候它没有给出尾页怎么办那也没法判断终止啊\|`
	`29`	`+\|这是最后一节课吗?下学期还会有你的python选修吗?\|`

0 commit comments

Comments

(0)

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Commit 67688f9

File tree

`‎README.md‎`

`‎questions/question_015.md‎`

0 commit comments