爬趣笔阁的小说,采用 scrapy 框架。
- 访问笔趣阁首页获取所有小说网址和专栏页网址
- 遍历网址,对两种类型的网址进行区分
- 小说网址:在小说目录页面获取所有章节网址,抓取未下载的章节
- 专栏网址:同第一步
- 每次请求生成随机 UserAgent
- 限制请求最大并发数为 5
- 禁止失败请求重试
- 小说简介数据存放在本机 MongoDB ;
- 小说章节数据也存放在本机 MongoDB 。
爬笔趣阁小说
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Latest commit | ||||
爬趣笔阁的小说,采用 scrapy 框架。
爬笔趣阁小说