Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

kimchen003/NodeJS-Robot

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

29 Commits

Repository files navigation

###nodeJs 爬虫实例

####使用步骤:

先安装项目依赖包 打开终端输入: npm install

1.打开终端输入 : node app

2.打开浏览器输入 : http://localhost:8312/Robot

3.输入你想要下载的网站链接

4.下载完成后,点击下载压缩包至本地


####版本:version 1.4.0 #####升级内容: 1.兼容"gbk"字符编码
2.抓取后端页面自动保存成前端格式
3.强化DOM页面的嗅探能力 #####修复问题: 暂无

####测试成功网站: 1.http://www.one-pieces-html5.com/
2.http://www.kundian.net/default.aspx
3.http://www.one-pieces-html5.com/waibao/crossfire/shakeh5/project/index.html
4.http://www.one-pieces-html5.com/waibao/cf/index.html
5.http://www.one-pieces-html5.com/waibao/lol/index.html
6.http://bbs.datangtianzi.com/portal.php

####特性: 1.爬虫特性明细嗅探及抓取同时进行
2.能抓取常规前端资源及代码(如 js css html 音频及图片资源)
3.可以以约定规则抓取后端服务生成的页面
4.可通过在线服务下载到本地(暂未开放)
5.抓取完成后提供压缩包下载链接

####缺陷: 1.能抓取的资源相对较少,暂不能抓取如视频 svg font等。
2.https不兼容
3.不支持站点内容全抓取,只抓取相对路径资源
4.抓取速度不够快
5.嗅探功能存在缺陷
6.页面回退样式错乱

#####(现版本缺陷相对较多,后续版本将会逐步完善)

About

NodeJS Robot 爬虫实例

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

Contributors

AltStyle によって変換されたページ (->オリジナル) /