Hyemi Lee

Hyemi Lee

주니어 개발자의 삽질과 기록

WEB, Crawling, 취업정보 크롤링하기

개요

  • 노트북을 켜면 매일 확인하는 것들을 자동화 하려고한다
  • python언어를 배울필요 없이 java를 통해 클롤링 할예정이다
    • java가 조금 느리다고 하지만 괜찮다
    • 많은 양을 확인할것이 아니다
    • 매일 밤 aws에서 crontab으로 실행할 예정이므로 느려도 상관없다
  • 도메인 주소/robots.txt 를 검색하여 크롤링이 허용되는 범위에서만 크롤링을 할것이다
  • jsoup과 Selenium 을 사용해서 크롤링할 수있는데 정적인페이지-jsoup, 동적인페이지-selenum을 이용할것이다

  • Selenium 참고 사이트

Selenium은 되고, Jsoup은 안되는 이유

Jsoup은 HTTP Request를 사용하여 서버에 데이터를 요청하여 랜더링된 화면을 크롤링한다
SSR은 화면은 모든 부분을 서버에서 랜더링하지만
CSR은 최소한만 서버에서 랜더링하고 나머지를 브라우저에서 랜딩하기 때문에
CSR은 Jsoup이 아닌 현재 브라우저에 출력된 페이지의 소스를 파싱하는 Selenium을 이용해서 크롤링해야한다

동적 웹페이지가 아니라면 Jsoup을 이용하는 것이 좋다.

Jsoup은 HTTP Request를 통해 웹서버에 직접 요청하기 때문에 빠른 응답을 받을 수 있다.
하지만, Selenium은 브라우저가 랜더링 된 후 페이지를 파싱하기 때문에 수집 속도가 느리다.

코드

package crawler;
import java.io.IOException;
import java.util.Iterator;
import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Crawler2 {
	public static void main(String[] args) {
		String url = "https://www.jobplanet.co.kr/job_postings/search?utf8=%E2%9C%93&jp_min_overall=2.0&recruitment_type_ids%5B%5D=1&recruitment_type_ids%5B%5D=4&city_ids%5B%5D=1&city_ids%5B%5D=2&occupation_level2_ids%5B%5D=11604&order_by=score";
		Document doc = null;
		try {
			doc = Jsoup.connect(url).get();
			System.out.println(doc);
		} catch (IOException e) {
			e.printStackTrace();
		}
		Elements elements = doc.select("div .job_content");
		System.out.println("============================================================");
		Iterator<Element> dataList = elements.select("div.result_unit_info").iterator();
		int num = 1;
		while (dataList.hasNext()) {
			Element data = dataList.next();
			String title = data.select("div.result_unit_info .posting_name").text();
			String d_day = data.select("div.result_unit_info .d_day").text();	// D-3, 채용시 마감, 상시채용, 오늘마감
			String crop_name = data.select("div.result_unit_info .company_name a").text();
			String rate = data.select("div.result_unit_info .jp_data_set .rate").text();
			String pay = data.select("div.result_unit_info .jp_data_set .salary").text();
			String recommend = data.select("div.result_unit_info .jp_data_set .recommend").text();
			String ect = data.select("div.result_unit_info .result_labels").text();
			System.out.println();
			num++;
		}
		System.out.println("============================================================");
	}
}

pom.xml

<!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-chrome-driver -->
<dependency>
 <groupId>org.seleniumhq.selenium</groupId>
 <artifactId>selenium-chrome-driver</artifactId>
 <version>3.141.59</version>
</dependency>
<dependency>
 <groupId>io.github.bonigarcia</groupId>
 <artifactId>webdrivermanager</artifactId>
 <version>3.8.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.seleniumhq.selenium/selenium-java -->
<dependency>
 <groupId>org.seleniumhq.selenium</groupId>
 <artifactId>selenium-java</artifactId>
 <version>3.141.59</version>
</dependency>
<!-- log -->
<dependency>
 <groupId>org.slf4j</groupId>
 <artifactId>slf4j-simple</artifactId>
 <version>1.7.21</version>
</dependency>

Reference

Share on

Twitter Facebook LinkedIn

You may also enjoy

Redis Stream

2021年04月28日

Stream Stream은 로그 데이터를 처리하게위해 5.0에서 새로 도입된 데이터 타입입니다. 대량의 데이터가 연속적으로 발생할때 처리하기 위해 등장했습니다. 기존 데이터를 수정하지 않고 오직 추가로 발생합니다. 이런 종류의 데이터를 stream or log데이터...

Study, Object, chapter2&3 presentation

2021年04月20日

chapter03. 역할, 책임, 협력 객체지향 설계란, 올바른 객체에게 올바른 책임을 할당하면서 낮은 결합도와 높은 응집도를 가진 구조를 창조하는 활동이다.

Spring, chatting 프로그램 만들기, Reactive란?

2020年06月16日

Reactive 막힘없이 흘러다니는 data(event)를 통해 사용자에게 자연스러운 응답을 주고 규모 탄력적으로 리소스를 사용하며 실패에 있어서 유연하게 대처한다 모든 지점에서 블럭 되지 않게 하자 oop와 같은 패러다임 모든 것을 비동기적인 data의 strea...