본문 바로가기

Python17

[Pandas] Pandas Cheat Sheet (판다스 치트 시트) 파이썬으로 데이터 분석을 할때는 판다스 패키지가 굉장히 유용하게 쓰인다. 하지만 나는 판다스에 대해 기초적인? 세부적인? 공부를 해본적이 없다. 필요한 함수가 있으면 검색을 해보고 다른 사람들의 예시를 보고 참고하며 공부를 했기 때문이다. 그러다가 판다스의 핵심 내용만 담아 놓은 cheat sheet를 발견했다. 물론 아는 내용도 있지만 시트에 담긴 내용을 보면서 정말 중요한 부분을 잘 담았다는 생각이 들었다. 그래서 이 시트를 기준으로 판다스를 공부해보려고 한다. 시트는 다음과 같다. Cheat Sheet는 한국어로는 컨닝페이퍼라고 번역할 수 있다고 한다. 그만큼 핵심 내용을 담는다는 뜻으로 보인다. 판다스 치트 시트를 보면서 내가 관심있는? 또는 공부하는? 내용이나 코드를 가지고 참고해서 나만의 치트.. 2021. 5. 16.
[Pandas] 유일한 값 찾기 unique(), nunique(), value_counts() 데이터 분석을 하면서 우리는 유일한 값, 즉 고유한 값을 찾고 싶은 순간들이 있습니다. 이번 시간에는 그 종류들에 대해 알아보도록 하겠습니다. 제가 정리할 방법은 총 3가지 입니다. 3가지의 특징들을 잘 파악해서 필요한 경우에 맞는 고유값을 출력하도록 도움이 되면 좋겠습니다. 예제로 사용해볼 데이터는 다음과 같습니다. 데이터 중 Item은 빵가게에서 판매하는 품목들의 종류를 의미합니다. 품목들의 고유한, 유일한 값을 알아보도록 하겠습니다. 1. unique() unique()는 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수입니다. 예시로 설명을 해보도록 하겠습니다. 출력된 결과를 보면 품목들의 종류들이 고유한 값으로 출력된 것을 볼 수 있습니다. 데이터의 종류들을 알고 싶을때 사용.. 2021. 2. 2.
[Python] 결측치/결측값 확인 missingno EDA를 하는 과정에서 데이터의 결측치/결측값을 확인하는 것은 매우 중요합니다. 결측치를 파악하기 쉽게 시각화 해주는 라이브러리가 있어 정리하고자 합니다.missingno(1) msno.bar import missingno as msno msno.bar(df=data.iloc[:, :], color=(0.1, 0.6, 0.8)) msno.bar는 막대그래프 형태로 시각화를 해주는 함수입니다. (2) msno.matrix import missingno as msno msno.matrix(df=data.iloc[:, :], color=(0.1, 0.6, 0.8)) msno.matrix는 매트릭스 형태로 결측치를 시각화 합니다. 흰색으로 표현된 빈칸들이 결측치를 의미합니다. 2021. 1. 25.
Dataframe 전체 행과 열 출력하기 Dataframe 전체 행과 열 출력하기 데이터를 분석하면서 데이터의 수가 많은 경우 행과 열의 출력수를 늘려서 보고 싶은 경우가 있다. 예를 들면 다음과 같은 경우이다. 전체 데이터 100개를 한번에 보고 싶지만 중간에 보면 생략되어서 출력이 되고 있다. 이러한 경우를 위해 판다스에서는 행과 열의 수를 늘려주는 옵션을 제공하고 있다. import pandas as pd print("pandas version: ", pd.__version__) pd.set_option('display.max_row', 500) pd.set_option('display.max_columns', 100) 다음과 같이 row와 colums수를 지정해주면 된다. 위 코드는 row를 500, columns를 100개로 늘린다는 .. 2021. 1. 21.