- 用scrapy写的爬虫,主要是熟悉框架,练练手
- 爬取,职位名称,联系人,联系电话,公司名称,公司地址
- 58上的电话是图片形式,估计也是为了反爬
- 这里用tesseract做的图片识别,效果一般,由于每次图片的数字松紧程度会随机变化,如果没识别下来就重新请求图片,直到识别出来为止
- tips:不过58还是有接口直接显示电话的,细心找一找,用tesserract是下策
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Latest commit | ||||
爬取58上面某一分类的信息