본문 바로가기

분류 전체보기153

정적 크롤링 정적 크롤링을 위한 도구들에 대해서 알아보도록 하겠습니다. 정적 크롤링 개념은 다음 글에서 확인할 수 있습니다. jaaamj.tistory.com/101 크롤링 종류(정적 VS 동적) 크롤링이란? 크롤링(crawling) 또는 스크레이핑(scraping) 은 웹 페이지를 가져와서 데이터를 추출해 내는 방법을 말합니다. 이렇게 크롤링하는 소프트웨어를 크롤러(crawler) 라고 합니다. 크롤링 jaaamj.tistory.com requests requests 라이브러리는 파이썬에서 HTTP와 관련된 작업을 편하게 할 수 있도록 도와주는 라이브러리입니다. ​ - get() 함수 requests 라이브러리의 get() 함수는 웹 페이지의 내용을 요청하는 함수입니다. 사용 방법은 다음과 같습니다. raw = r.. 2021. 1. 25.
플랜잇 태블로 기초 교육 후기 플랜잇 소개 플랜잇은 데이터분석, 머신러닝, AI, 헬스케어, 교육등 다양한 분야의 기업 데이터를 활용하여 가치있는 서비스를 제공해주는 기업입니다. 오랜동안 기업 데이터를 이용하여 가치있는 서비스를 제공하고 있습니다. 특히 플랜잇은 데이터시각화 솔루션태블로 공식 리셀러업체로 시각화의 특화된 기업입니다. 플랜잇에서는 태블로와 관련하여 단계별로 강의를 제공하고 있습니다. 그 강의들중에서 기초 과정과 관련하여 후기를 남기고자 합니다. 교육 선택 이유 대학교에서 태블로를 배웠었지만 데이터를 시각화할때 태블로 보다는 파이썬이나 R을 많이 사용했었습니다. 하지만 캐글 설문조사 결과에서도 그렇고, 실제 비즈니스에서 태블로를 사용하는글을 많이 봤습니다. 그래서 다시 태블로로 데이터를 분석하고 시작해보려 하니 어려움이 .. 2021. 1. 25.
TF-IDF란? TF-IDF 알아보기 전에 TF-IDF를 왜 사용하는지에 대해 정리해보도록 합니다. 먼저 TF-IDF는 특징을 추출하는 방법 중 하나입니다. 많이 사용되는 방법으로 CountVectorizer이 있습니다. 이름처럼 말 그대로 count기반으로 특징을 추출하는 방법입니다. 하지만 단순 카운트로 특징을 추출했을때의 문제점은 무엇일까요?? 영어나 한국에서 많이 사용되는 단어들을 생각해 봅시다. 예를들면 The, 조사 등이 있습니다. 하지만 이러한 단어들을 실제로 큰 의미가 없는 단어들입니다. 이러한 상황을 보완하여 나온것이 바로 TF-IDF입니다. TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어.. 2021. 1. 21.
Dataframe 전체 행과 열 출력하기 Dataframe 전체 행과 열 출력하기 데이터를 분석하면서 데이터의 수가 많은 경우 행과 열의 출력수를 늘려서 보고 싶은 경우가 있다. 예를 들면 다음과 같은 경우이다. 전체 데이터 100개를 한번에 보고 싶지만 중간에 보면 생략되어서 출력이 되고 있다. 이러한 경우를 위해 판다스에서는 행과 열의 수를 늘려주는 옵션을 제공하고 있다. import pandas as pd print("pandas version: ", pd.__version__) pd.set_option('display.max_row', 500) pd.set_option('display.max_columns', 100) 다음과 같이 row와 colums수를 지정해주면 된다. 위 코드는 row를 500, columns를 100개로 늘린다는 .. 2021. 1. 21.