728x90
Summarize Data¶
In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
In [2]:
df = sns.load_dataset('iris')
df.head()
Out[2]:
sepal_length | sepal_width | petal_length | petal_width | species | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | setosa |
value_counts¶
In [3]:
df['species'].value_counts()
Out[3]:
setosa 50 virginica 50 versicolor 50 Name: species, dtype: int64
- value_counts()는 어떤 컬럼/Series의 unique value들을 count해주는 함수입니다.
len¶
In [4]:
len(df)
Out[4]:
150
- len은 데이터프레임의 행의 수를 알려주는 함수입니다.
nunique¶
In [6]:
df['species'].nunique()
Out[6]:
3
- nunique는 unique value의 갯수를 알려주는 함수입니다.
describe¶
In [7]:
df.describe()
Out[7]:
sepal_length | sepal_width | petal_length | petal_width | |
---|---|---|---|---|
count | 150.000000 | 150.000000 | 150.000000 | 150.000000 |
mean | 5.843333 | 3.057333 | 3.758000 | 1.199333 |
std | 0.828066 | 0.435866 | 1.765298 | 0.762238 |
min | 4.300000 | 2.000000 | 1.000000 | 0.100000 |
25% | 5.100000 | 2.800000 | 1.600000 | 0.300000 |
50% | 5.800000 | 3.000000 | 4.350000 | 1.300000 |
75% | 6.400000 | 3.300000 | 5.100000 | 1.800000 |
max | 7.900000 | 4.400000 | 6.900000 | 2.500000 |
- describe는 갈 열에 대한 기술통계량을 알려주는 함수입니다.
- 다음과 같이 따로 옵션을 지정하지 않으면 숫자형태인 열만 계산합니다.
In [8]:
df.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 150 entries, 0 to 149 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 sepal_length 150 non-null float64 1 sepal_width 150 non-null float64 2 petal_length 150 non-null float64 3 petal_width 150 non-null float64 4 species 150 non-null object dtypes: float64(4), object(1) memory usage: 6.0+ KB
In [9]:
df.describe(include='all')
Out[9]:
sepal_length | sepal_width | petal_length | petal_width | species | |
---|---|---|---|---|---|
count | 150.000000 | 150.000000 | 150.000000 | 150.000000 | 150 |
unique | NaN | NaN | NaN | NaN | 3 |
top | NaN | NaN | NaN | NaN | setosa |
freq | NaN | NaN | NaN | NaN | 50 |
mean | 5.843333 | 3.057333 | 3.758000 | 1.199333 | NaN |
std | 0.828066 | 0.435866 | 1.765298 | 0.762238 | NaN |
min | 4.300000 | 2.000000 | 1.000000 | 0.100000 | NaN |
25% | 5.100000 | 2.800000 | 1.600000 | 0.300000 | NaN |
50% | 5.800000 | 3.000000 | 4.350000 | 1.300000 | NaN |
75% | 6.400000 | 3.300000 | 5.100000 | 1.800000 | NaN |
max | 7.900000 | 4.400000 | 6.900000 | 2.500000 | NaN |
- object타입도 보고 싶다면 다음과 같이 include='all'을 사용하여 출력할 수 있습니다.
In [13]:
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))
'Python' 카테고리의 다른 글
[Pandas] Pandas Cheat Sheet(Make New Columns) (0) | 2021.06.21 |
---|---|
[Pandas] Pandas Cheat Sheet(Handling Missing Data) (0) | 2021.06.21 |
[Pandas] Pandas Cheat Sheet(Subset Variables (Columns)) (0) | 2021.06.20 |
[Pandas] Pandas Cheat Sheet(Subset Observations(Rows)) (0) | 2021.05.23 |
[Pandas] Pandas Cheat Sheet(Reshaping Data) (0) | 2021.05.20 |