Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings
/ JdBee Public
forked from handexing/JdBee

整合使用selenium+phantomjs+WebCollector爬取京东数据,并做数据持久化。

Notifications You must be signed in to change notification settings

rycaon/JdBee

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

23 Commits

Repository files navigation

JdBee

使用jsoup抓取京东数据

只用于学习交流,私自用于其他途径,后果自负!!!

目前只抓取零食相关的数据,现在就只需要零食相关的数据,其他后续再议!

抓取零食相关的目的就是为了这个vipsnacks项目的后续开发。

项目需要

  • httpclient
  • jsoup
  • slf4j
  • selenium
  • phantomjs
  • WebCollector

更新日志

  • 初始化项目,完成一,二级类目的抓取 (2017年05月24日)
  • 采用selenium获取页面数据,获取三,四,五级类目(2017年05月25日)
  • 多线程并发爬取类目分页数据(2017年05月26日)
  • 多线程爬取商品skuid(2017年05月28日)

selenium这个爬取的速度太慢了,而且每次还要打开一个网页,抓取少量数据还可以用一用,多的话实在罩不住,近期在找别的方法爬取

  • 使用WebCollector+selenium+phantomjs爬取商品(2017年06月01日只爬取一个类目测试)
  • 数据入库测试(2017年06月02日)
  • 测试爬取一个小类目,爬取20万数据用时21分钟(2017年06月03日)
  • 数据正常入库,爬取数据285330条(2017年06月04日)
  • 优化获取商品代码,从获取一页要19664毫秒,优化到现在获取一页商品要7000毫秒左右,(2017年06月07日)

觉得不错的朋友可以点下star,watch,fork也算是对我的鼓励了。

About

整合使用selenium+phantomjs+WebCollector爬取京东数据,并做数据持久化。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Java 98.8%
  • JavaScript 1.2%

AltStyle によって変換されたページ (->オリジナル) /