Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Jueee/PythonWebCrawlers

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

40 Commits

Repository files navigation

05-WebCrawlers

网络爬虫(Web Crawlers)学习笔记。


内容说明:

1、Scrapy文件夹:

web抓取框架Scrapy学习笔记。

2、其他:

  • 01-URL.py:用Python抓取指定URL页面。
  • 02-BFS.py:使用队列来实现爬虫的广度优先搜索(BFS)算法。
  • 03-Chrome.py:伪装浏览器来访问网站。
  • 04-Login.py:模拟用户登录(以登录 CSDN 网站为例)。
  • 05-tieba.py:爬取百度贴吧的HTML网页到本地。
  • 06-JDprice.py:爬虫获取京东的商品价格,并把爬取结果保存至Excel。
  • 07-BaiduLenovo.py:百度搜索框联想词的获取。
  • 08-IdentifyingCode.py:读取验证码图片。
  • 09-downPicture.py:爬取某个网页上的所有图片资源。
  • 10-zhihuLogin.py:知乎网的登录。
  • 11-CSDNBlogList.py:根据用户名,获取该用户的CSDN的博客列表。
  • 12-ChromeCookie.py:在Python中使用Chrome浏览器已有的Cookies发起HTTP请求。
  • 13-CookieDeciphering.py:Chrome 33+浏览器 Cookies encrypted_value 解密。
  • 14-ChromePassword.py:获取Chrome浏览器已保存的账号和密码。
  • 15-ZhihuAnswerList.py:获取某个用户的知乎回答列表及赞同数(静态网页爬虫)。
  • 16-selenium.py:动态爬虫工具 selenium 的安装与使用(通过控制浏览器实现)。
  • 17-Phantomjs.py:动态爬虫工具 Phantomjs 的安装与使用(通过JS渲染实现)。
  • 18-WeiboAnalbum.py:爬取新浪微博某个用户的头像相册(通过分析API JSON)。
  • 19-BeautifulSoup.py:Beautiful Soup 学习笔记(python3中的爬虫匹配神器)。
  • 20-DoubanMovieTop250.py:爬取豆瓣评分最高的250部电影(使用Beautiful Soup)。
  • 21-DoubanMovieTypeTop.py:按类别爬取豆瓣评分最高的电影(使用Beautiful Soup)。
  • 22-PyQuery.py:Python中PyQuery库的使用总结。
  • 23-C315Check.py:根据物流防伪码,查询所购商品是否正品。

About

Python 网络爬虫(Web Crawlers)学习笔记。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /