Name	Name	Last commit message	Last commit date
Latest commit History 38 Commits
docs/static	docs/static
src	src
.gitignore	.gitignore
.travis.yml	.travis.yml
LICENSE	LICENSE
README.md	README.md
pom.xml	pom.xml

Name

Last commit message

Last commit date

Latest commit

History

src

Elves

一个轻量级的爬虫框架设计与实现,博文分析。

@biezhi on zhihu

特性

事件驱动
易于定制
多线程执行
CSS 选择器和 XPath 支持

Maven 坐标

<dependency>
 <groupId>io.github.biezhi</groupId>
 <artifactId>elves</artifactId>
 <version>0.0.2</version>
</dependency>

如果你想在本地运行这个项目源码,请确保你是 Java8 环境并且安装了 lombok 插件。

架构图

调用流程图

快速上手

搭建一个爬虫程序需要进行这么几步操作

编写一个爬虫类继承自 Spider
设置要抓取的 URL 列表
实现 Spider 的 parse 方法
添加 Pipeline 处理 parse 过滤后的数据

举个栗子:

public class DoubanSpider extends Spider {
 public DoubanSpider(String name) {
 super(name);
 this.startUrls(
 "https://movie.douban.com/tag/爱情",
 "https://movie.douban.com/tag/喜剧",
 "https://movie.douban.com/tag/动画",
 "https://movie.douban.com/tag/动作",
 "https://movie.douban.com/tag/史诗",
 "https://movie.douban.com/tag/犯罪");
 }
 @Override
 public void onStart(Config config) {
 this.addPipeline((Pipeline<List<String>>) (item, request) -> log.info("保存到文件: {}", item));
 }
 public Result parse(Response response) {
 Result<List<String>> result = new Result<>();
 Elements elements = response.body().css("#content table .pl2 a");
 List<String> titles = elements.stream().map(Element::text).collect(Collectors.toList());
 result.setItem(titles);
 // 获取下一页 URL
 Elements nextEl = response.body().css("#content > div > div.article > div.paginator > span.next > a");
 if (null != nextEl && nextEl.size() > 0) {
 String nextPageUrl = nextEl.get(0).attr("href");
 Request nextReq = this.makeRequest(nextPageUrl, this::parse);
 result.addRequest(nextReq);
 }
 return result;
 }
}
public static void main(String[] args) {
 DoubanSpider doubanSpider = new DoubanSpider("豆瓣电影");
 Elves.me(doubanSpider, Config.me()).start();
}

爬虫例子

开源协议

MIT

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

hellokaton/elves

Folders and files

Latest commit

History

Repository files navigation

Elves

特性

架构图

调用流程图

快速上手

爬虫例子

开源协议

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Elves

特性

架构图

调用流程图

快速上手

爬虫例子

开源协议

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages