|
47 | 47 | | - | 第13讲答疑([问题列表](https://github.com/fly51fly/Practical_Python_Programming/blob/master/questions/question_013.md))<br/>摘要:编程状态不好时该怎么办、课下自己调试感觉困难怎么办、如何收集股票信息并用图表分析、数据的爬取加可视化、遍历过程中为什么不建议修改遍历序列、爬虫在工作中的实例、爬虫的个性化与爬虫基类的重载、除正则表达式以外还有什么其他方式可以解析网页、有些网页加载过程中有多个doc文件该如何处理、批量爬取爬虫的架构、课上的爬虫离商业爬虫有多远、分割文本的爬取有什么高效办法、如何爬取某具体方向的内容、为什么会有乱码。 | [L13.2](https://www.bilibili.com/video/av92186118?p=33) | |
48 | 48 | | 2020年6月5日 | 第14讲:爬虫进阶之DOM树与XPath<br />摘要:DOM的基本概念,DOM树的基本概念,XPath的概念和基本语法,Chrome里XPath Helper扩展的使用,特定目标XPath的获取和精简,用lxml库实现网页源码的解析和XPath目标定位,基于XPath的页面信息分层抽取。<br />代码:[Jupyter Notebook](https://github.com/fly51fly/Practical_Python_Programming/blob/master/code/Python_Class_14.ipynb) | [L14.1](https://www.bilibili.com/video/BV1b7411N7P2?p=34) | |
49 | 49 | | - | 第14讲答疑([问题列表](https://github.com/fly51fly/Practical_Python_Programming/blob/master/questions/question_014.md))<br />摘要:如何深入了解xpath、xpath能否完全代替正则表达式、大爬虫也需要对每个网页配置抽取表达式吗、访问图片时拒绝访问如何处理、xpath里的@href什么意思、xpath的绝对路径和相对路径有何区别、DOM树与C++的树一样吗、xpath与正则表达式适用场景如何效率比较及怎样选择、遇到具体变成问题怎么找解决方案、xpath helper安装不了怎么办、lxml解析为什么要解码、表格数据如何采集、DOM和xpath的关系、pycharm怎么安装lxml、爬虫在生活中的应用、豆瓣书名副标题的采集问题、包含子节点的节点如何获取全部文本、xpath能否用于普通字符串、beautifulsoup和lxml在解析方面有什么区别吗、python能提供网页服务吗、模型到底是什么、没有插件如何快速获取xpath等。 | [L14.2](https://www.bilibili.com/video/BV1b7411N7P2?p=35) | |
| 50 | +| 2020年6月12日 | 第15讲:翻页的爬取和采集目标分析方法<br />摘要:翻页链接的获取思路、末尾页链接的检测、程序的迭代改进、从解决问题的角度思考编程过程、培养对程序的"审美"、对特殊情况的推演思路、重用与可读性、url encode/quote的使用、对网站数据可用性和扩展渠道的考察。 | [L15.1](https://www.bilibili.com/video/BV1b7411N7P2?p=36) | |
50 | 51 |
|
51 | 52 | 1. [中文 Python 笔记](https://github.com/lijin-THU/notes-python) |
52 | 53 | 2. [千行代码入门Python](https://github.com/xianhu/LearnPython) |
|
0 commit comments