Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

yhangf/PythonCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

79 Commits

Repository files navigation

 ( 
 )\ ) ) ) ( ( 
 (()/( ( ( /( ( /( )\ ( ) ( ( )\ ( ( 
 /(_)))\ ) )\()))\()) ( ( (((_) )( ( /( )\))( ((_) ))\  )( 
 (_)) (()/( (_))/((_)\ )\ )\ ) )\___ (()\ )(_))((_)()\ _ /((_)(()\ 
 | _ \ )(_))| |_ | |(_) ((_) _(_/(((/ __| ((_)((_)_ _(()((_)| |(_)) ((_)
 | _/| || || _|| ' \ / _ \| ' \))| (__ | '_|/ _` |\ V V /| |/ -_) | '_|
 |_| \_, | \__||_||_|\___/|_||_| \___||_| \__,_| \_/\_/ |_|\___| |_| 
 |__/ 
 —————— by yanghangfeng

PythonCrawler: 用 python编写的爬虫项目集合:bug:(本项目代码仅作为爬虫技术学习之用,学习者务必遵循中华人民共和国法律!)

IPWO全球代理资源 | 为采集、跨境与测试项目提供支持(免费试用,爬虫使用强烈推荐!!!)

官网地址

👉 访问 IPWO 官网

产品简介

  • 免费试用,先体验再选择
  • 9000万+真实住宅IP,覆盖220+国家和地区
  • 支持动态住宅代理、静态住宅代理(ISP)
  • 适用于数据抓取、电商、广告验证、SEO监控等场景
  • 支持HTTP/HTTPS/SOCKS5协议,兼容性强
  • 纯净IP池,实时更新,99.9%连接成功率
  • 支持指定国家城市地区访问,保护隐私

spiderFile模块简介

  1. baidu_sy_img.py: 抓取百度的高清摄影图片。
  2. baidu_wm_img.py: 抓取百度图片唯美意境模块。
  3. get_photos.py: 抓取百度贴吧某话题下的所有图片。
  4. get_web_all_img.py: 抓取整个网站的图片。
  5. lagou_position_spider.py: 任意输入关键字,一键抓取与关键字相关的职位招聘信息,并保存到本地文件。
  6. student_img.py: 自动化获取自己学籍证件照。
  7. JD_spider.py: 大批量抓取京东商品id和标签。
  8. ECUT_pos_html.py: 抓取学校官网所有校园招聘信息,并保存为html格式,图片也会镶嵌在html中。
  9. ECUT_get_grade.py: 模拟登陆学校官网,抓取成绩并计算平均学分绩。
  10. github_hot.py: 抓取github上面热门语言所对应的项目,并把项目简介和项目主页地址保存到本地文件。
  11. xz_picture_spider.py: 应一位知友的请求,抓取某网站上面所有的写真图片。
  12. one_img.py: 抓取one文艺网站的图片。
  13. get_baike.py: 任意输入一个关键词抓取百度百科的介绍。
  14. kantuSpider.py: 抓取看图网站上的所有图片。
  15. fuckCTF.py: 通过selenium模拟登入合天网站,自动修改原始密码。
  16. one_update.py: 更新抓取one文艺网站的代码,添加一句箴言的抓取。
  17. get_history_weather.py: 抓取广州市2019年第一季度的天气数据。
  18. search_useful_camera_ip_address.py: 摄像头弱密码安全科普。
  19. get_top_sec_com.py: 异步编程获取A股市场网络安全版块公司市值排名情况,并以图片格式保存下来。
  20. get_tf_accident_info.py: 同步和异步编程结合获取天津市应急管理局所有事故信息。

spiderAPI模块简介

本模块提供一些网站的API爬虫接口,功能可能不是很全因此可塑性很大智慧的你如果有兴趣可以继续改进。

1.大众点评
from spiderAPI.dianping import *
'''
citys = {
 '北京': '2', '上海': '1', '广州': '4', '深圳': '7', '成都': '8', '重庆': '9', '杭州': '3', '南京': '5', '沈阳': '18', '苏州': '6', '天津': '10','武汉': '16', '西安': '17', '长沙': '344', '大连': '19', '济南': '22', '宁波': '11', '青岛': '21', '无锡': '13', '厦门': '15', '郑州': '160'
}

ranktype = {
 '最佳餐厅': 'score', '人气餐厅': 'popscore', '口味最佳': 'score1', '环境最佳': 'score2', '服务最佳': 'score3'
}
'''
result=bestRestaurant(cityId=1, rankType='popscore')#获取人气餐厅
shoplist=dpindex(cityId=1, page=1)#商户风云榜
restaurantlist=restaurantList('http://www.dianping.com/search/category/2/10/p2')#获取餐厅
2.获取代理IP

爬取代理IP

from spiderAPI.proxyip import get_enableips
enableips=get_enableips()
3.百度地图

百度地图提供的API,对查询有一些限制,这里找出了web上查询的接口。

from spiderAPI.baidumap import *
citys=citys()#获取城市列表
result=search(keyword="美食", citycode="257", page=1)#获取搜索结果
4.模拟登录github
from spiderAPI.github import GitHub
github = GitHub()
github.login() # 这一步会提示你输入用户名和密码
github.show_timeline() # 获取github主页时间线
# 更多的功能有待你们自己去发掘
5.拉勾网
from spiderAPI.lagou import *
lagou_spider(key='数据挖掘', page=1) # 获取关键字为数据挖掘的招聘信息

About

💗用python编写的爬虫项目集合

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /