본문 바로가기
Crawling

크롤링 종류(정적 VS 동적)

by rubyda 2021. 1. 17.
728x90

크롤링이란?

크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말합니다.

이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 합니다.

크롤링의 중요성

그렇다면 크롤링은 왜? 중요할까?

예를 들어서 인기 있는 화장품에 관한 정보를 수집하고 싶다고 가정을 해보자.

우리는 데이터를 수집하기 위해서 복사 붙여넣기를 반복하는 작업을 해야한다.

이러한 작업을 자동으로 해결할 수 있다면?? 일을 훨씬 더 빠르게 처리할 수 있다.

크롤링 활용사례

https://www.youtube.com/watch?v=ER27nPK28pg )

 

세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 

 

어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다.

 

예를들면 마케팅과 관련하여 개선점을 파악하고 싶을때 웹상에 존재하는 상품들의 후기, 평점등을 크롤링하여 문제점을 파악하고 개선점을 찾을 수 있다.

 

크롤링 종류

정적 크롤링과 동적 크롤링

1. 정적 크롤링

정적크롤링은 정적인 데이터를 수집하는 방법을 말한다.

 

정적인 데이터란? 변하지 않는 데이터를 의미합니다. 즉 한 페이지 안에서 원하는 정보가 모두 드러날때 정적 데이터라고 할 수있다.

예시로 생각을 해보겠습니다.

 

 

로또 로또 번호 7개를 크롤링 하고 싶다고 한다면 보이는 화면에서 그 값이 모두 나타나 있다. 그렇기 때문에 한 페이지 안에 원하는 정보가 모두 드러난 경우 인 정적 크롤링에 해당된다.

 

정적 크롤링은 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다는 장점을 가진다.

2. 동적 크롤링

동적크롤링은 동적인 데이터를 수집하는 방법을 말한다.

동적인 데이터란? 입력, 클릭, 로그인 등과 같이 페이지 이동이 있어야 보이는 데이터를 말한다.

 

정적크롤링 수집하는 속도가 느리다는 단점이 있지만 더 많은 정보를 수집할 수 있다는 장점이 있다.

예시로 한번 알아보도록 하자.

 

메일함에 있는 메일 제목데이터를 수집하고 싶다고 생각을 해보자. 그렇기 위해서는 로그인과정을 거친 후 메일함에 들어가야 하는 동적인 과정이 필요하다. 이러한 경우가 바로 동적 크롤링이다.

정적 크롤링 VS 동적 크롤링

  정적 크롤링 동적 크롤링
연속성 주소를 통해 단발적으로 접근 브라우저를 사용하여 연속적으로 접근
수집 능력 수집 데이터의 한계가 존재 수집 데이터의 한계가 없음
속도 빠름 느림
라이브러리 requests, BeautifulSoup selenium, chromedriver

 

 

'Crawling' 카테고리의 다른 글

selenium 내장함수  (0) 2021.01.25
정적 크롤링  (0) 2021.01.25
HTML 구조  (0) 2021.01.17