Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

jakejie/AlibabaInternation

Repository files navigation

阿里巴巴国际站 商家数据爬虫

需要数据请联系

QQ:794564669
Email:794564669@qq.com

数据量

2022年7月23日 阿里巴巴国际站 全国总计137447条

目标

阿里巴巴国际站 获取尽可能多的商家数据/含电话号码

爬虫原理说明

根据城市 作为搜索关键字 通过搜索结果 获取商家
其中,city_list.py文件中有1836个城市 获取有效数据
根据分类获取,约4600+分类
备注:
 
 具体获取商家电话号码的方法不予以公开 提供商家数据下载

爬虫配置

1.CONCURRENT_REQUESTS = 200 并发请求数
2.DOWNLOAD_DELAY = 3 下载延时
3.CONCURRENT_REQUESTS_PER_DOMAIN = 16 
4.CONCURRENT_REQUESTS_PER_IP = 16
5.db_host = '****' 数据库主机
6.db_user = 'root' 数据库连接用户名
7.db_pawd = '****' 数据库连接密码
8.db_name = 'alibaba' 数据库名称
9.db_port = 3306 数据库端口号
# 代理ip相关配置
10.proxy_secret = "**" 讯代理 密钥
11.proxy_address = "forward.xdaili.cn:80" # 讯代理 地址
12.proxy_order_no = "***" 讯代理 订单号

环境部署

ubuntu 16 服务器
1.python环境 
 ubuntu自带python3环境,新服务器需要安装pip virtualenv等相关包
2.创建虚拟环境
 在项目文件夹中 执行 virtualenv -p python3 env 即可创建虚拟环境
3.安装依赖库
 激活虚拟环境 执行 source env/bin/activate 即可进入虚拟环境
 安装依赖:pip install -r requests.txt等待安装

爬虫启动

1.创建数据表
 在models.py文件下,执行 python models.py 创建数据表
2.启动爬虫
 在start_alibaba.py文件下 执行 python start_alibaba.py 开启爬虫

About

阿里巴巴国际站 商家数据爬虫

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

AltStyle によって変換されたページ (->オリジナル) /