본문 바로가기

전체 글153

[Python] 결측치/결측값 확인 missingno EDA를 하는 과정에서 데이터의 결측치/결측값을 확인하는 것은 매우 중요합니다. 결측치를 파악하기 쉽게 시각화 해주는 라이브러리가 있어 정리하고자 합니다.missingno(1) msno.bar import missingno as msno msno.bar(df=data.iloc[:, :], color=(0.1, 0.6, 0.8)) msno.bar는 막대그래프 형태로 시각화를 해주는 함수입니다. (2) msno.matrix import missingno as msno msno.matrix(df=data.iloc[:, :], color=(0.1, 0.6, 0.8)) msno.matrix는 매트릭스 형태로 결측치를 시각화 합니다. 흰색으로 표현된 빈칸들이 결측치를 의미합니다. 2021. 1. 25.
selenium 내장함수 동적크롤링을 하기 위해 필요한 selenium 내장함수에 대해 알아보겠습니다. driver = webdriver.Chrome('./chromedriver') 먼저 다음과 같이 driver를 정의하여 줍니다. path설정을 주의해야 합니다. 1. get() get() 함수는 입력한 url 주소로 접속하게 해주는 함수입니다. 사용법은 다음과 같습니다. driver.get("url 주소") 2. find_element_by_ ~ () 이 함수는 정적크롤링의 find()와 비슷한 역할을 하는 함수로 HTML 요소를 찾는 함수입니다. find_element_by_는 종류가 굉장히 많기 때문에 ~로 표시하였습니다. 많은 종류 중 몇가지만 살펴보도록 하겠습니다. - find_element_by_css_selector.. 2021. 1. 25.
정적 크롤링 정적 크롤링을 위한 도구들에 대해서 알아보도록 하겠습니다. 정적 크롤링 개념은 다음 글에서 확인할 수 있습니다. jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적) 크롤링이란? 크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말합니다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 합니다. 크롤링 jaaamj.tistory.com requests requests 라이브러리는 파이썬에서 HTTP와 관련된 작업을 편하게 할 수 있도록 도와주는 라이브러리입니다. ​ - get() 함수 requests 라이브러리의 get() 함수는 웹 페이지의 내용을 요청하는 함수입니다. 사용 방법은 다음과 같습니다. raw = r.. 2021. 1. 25.
플랜잇 태블로 기초 교육 후기 플랜잇 소개 플랜잇은 데이터분석, 머신러닝, AI, 헬스케어, 교육등 다양한 분야의 기업 데이터를 활용하여 가치있는 서비스를 제공해주는 기업입니다. 오랜동안 기업 데이터를 이용하여 가치있는 서비스를 제공하고 있습니다. 특히 플랜잇은 데이터시각화 솔루션태블로 공식 리셀러업체로 시각화의 특화된 기업입니다. 플랜잇에서는 태블로와 관련하여 단계별로 강의를 제공하고 있습니다. 그 강의들중에서 기초 과정과 관련하여 후기를 남기고자 합니다. 교육 선택 이유 대학교에서 태블로를 배웠었지만 데이터를 시각화할때 태블로 보다는 파이썬이나 R을 많이 사용했었습니다. 하지만 캐글 설문조사 결과에서도 그렇고, 실제 비즈니스에서 태블로를 사용하는글을 많이 봤습니다. 그래서 다시 태블로로 데이터를 분석하고 시작해보려 하니 어려움이 .. 2021. 1. 25.
TF-IDF란? TF-IDF 알아보기 전에 TF-IDF를 왜 사용하는지에 대해 정리해보도록 합니다. 먼저 TF-IDF는 특징을 추출하는 방법 중 하나입니다. 많이 사용되는 방법으로 CountVectorizer이 있습니다. 이름처럼 말 그대로 count기반으로 특징을 추출하는 방법입니다. 하지만 단순 카운트로 특징을 추출했을때의 문제점은 무엇일까요?? 영어나 한국에서 많이 사용되는 단어들을 생각해 봅시다. 예를들면 The, 조사 등이 있습니다. 하지만 이러한 단어들을 실제로 큰 의미가 없는 단어들입니다. 이러한 상황을 보완하여 나온것이 바로 TF-IDF입니다. TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어.. 2021. 1. 21.
Dataframe 전체 행과 열 출력하기 Dataframe 전체 행과 열 출력하기 데이터를 분석하면서 데이터의 수가 많은 경우 행과 열의 출력수를 늘려서 보고 싶은 경우가 있다. 예를 들면 다음과 같은 경우이다. 전체 데이터 100개를 한번에 보고 싶지만 중간에 보면 생략되어서 출력이 되고 있다. 이러한 경우를 위해 판다스에서는 행과 열의 수를 늘려주는 옵션을 제공하고 있다. import pandas as pd print("pandas version: ", pd.__version__) pd.set_option('display.max_row', 500) pd.set_option('display.max_columns', 100) 다음과 같이 row와 colums수를 지정해주면 된다. 위 코드는 row를 500, columns를 100개로 늘린다는 .. 2021. 1. 21.