본문 바로가기

Crawling4

selenium 내장함수 동적크롤링을 하기 위해 필요한 selenium 내장함수에 대해 알아보겠습니다. driver = webdriver.Chrome('./chromedriver') 먼저 다음과 같이 driver를 정의하여 줍니다. path설정을 주의해야 합니다. 1. get() get() 함수는 입력한 url 주소로 접속하게 해주는 함수입니다. 사용법은 다음과 같습니다. driver.get("url 주소") 2. find_element_by_ ~ () 이 함수는 정적크롤링의 find()와 비슷한 역할을 하는 함수로 HTML 요소를 찾는 함수입니다. find_element_by_는 종류가 굉장히 많기 때문에 ~로 표시하였습니다. 많은 종류 중 몇가지만 살펴보도록 하겠습니다. - find_element_by_css_selector.. 2021. 1. 25.
정적 크롤링 정적 크롤링을 위한 도구들에 대해서 알아보도록 하겠습니다. 정적 크롤링 개념은 다음 글에서 확인할 수 있습니다. jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적) 크롤링이란? 크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말합니다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 합니다. 크롤링 jaaamj.tistory.com requests requests 라이브러리는 파이썬에서 HTTP와 관련된 작업을 편하게 할 수 있도록 도와주는 라이브러리입니다. ​ - get() 함수 requests 라이브러리의 get() 함수는 웹 페이지의 내용을 요청하는 함수입니다. 사용 방법은 다음과 같습니다. raw = r.. 2021. 1. 25.
HTML 구조 HTML 구조 👉 HTML이란? HTML(HyperText Markup Language)은 웹을 이루는 가장 기초적인 구성 요소입니다. HTML은 웹 콘텐츠의 의미와 구조를 정의할 때 사용합니다. 우리는 F12를 누르면 다음과 같은 창을 볼 수 있습니다. 이것이 바로 HTML구조입니다. HTML을 보면 우리는 웹사이트가 어떠한 형태로 구성되어 있는지 파악할 수 있고, 이를 활용하여 원하는 데이터의 구조와 위치를 파악하여 데이터를 수집하게 됩니다. 👉 HTML 태그 HTML에 담겨있는 구성 요소들은 마크의 역할을 하는 '태그'로 감싸져 있습니다. 가장 기본적으로 HTML은 아래와 같이 작성합니다. 내용 내용 시작과 끝이 하나의 쌍으로 구성되어 있으며 그 사이에 내용들이 포함되어 있습니다. 여기서 시작과 끝.. 2021. 1. 17.
크롤링 종류(정적 VS 동적) 크롤링이란? 크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말합니다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 합니다. 크롤링의 중요성 그렇다면 크롤링은 왜? 중요할까? 예를 들어서 인기 있는 화장품에 관한 정보를 수집하고 싶다고 가정을 해보자. 우리는 데이터를 수집하기 위해서 복사 붙여넣기를 반복하는 작업을 해야한다. 이러한 작업을 자동으로 해결할 수 있다면?? 일을 훨씬 더 빠르게 처리할 수 있다. 크롤링 활용사례 세상에는 많은 양, 다양항 데이터가 존재한다. 그렇기 때문에 크롤링도 다양한 분야에서 활용할 수 있다. 어떠한 기업에서는 크롤링 담당 분서가 따로 존재한다고 한다. 예를들면 마케팅과 관련하여 개선점을 파악하.. 2021. 1. 17.