728x90

Summarize Data

Summarize Data¶

In [1]:

import pandas as pd
import seaborn as sns
import numpy as np

In [2]:

df = sns.load_dataset('iris')
df.head()

Out[2]:

	sepal_length	sepal_width	petal_length	petal_width	species
0	5.1	3.5	1.4	0.2	setosa
1	4.9	3.0	1.4	0.2	setosa
2	4.7	3.2	1.3	0.2	setosa
3	4.6	3.1	1.5	0.2	setosa
4	5.0	3.6	1.4	0.2	setosa

value_counts¶

In [3]:

df['species'].value_counts()

Out[3]:

setosa        50
virginica     50
versicolor    50
Name: species, dtype: int64

value_counts()는 어떤 컬럼/Series의 unique value들을 count해주는 함수입니다.

len¶

In [4]:

len(df)

Out[4]:

len은 데이터프레임의 행의 수를 알려주는 함수입니다.

nunique¶

In [6]:

df['species'].nunique()

Out[6]:

nunique는 unique value의 갯수를 알려주는 함수입니다.

describe¶

In [7]:

df.describe()

Out[7]:

	sepal_length	sepal_width	petal_length	petal_width
count	150.000000	150.000000	150.000000	150.000000
mean	5.843333	3.057333	3.758000	1.199333
std	0.828066	0.435866	1.765298	0.762238
min	4.300000	2.000000	1.000000	0.100000
25%	5.100000	2.800000	1.600000	0.300000
50%	5.800000	3.000000	4.350000	1.300000
75%	6.400000	3.300000	5.100000	1.800000
max	7.900000	4.400000	6.900000	2.500000

describe는 갈 열에 대한 기술통계량을 알려주는 함수입니다.
다음과 같이 따로 옵션을 지정하지 않으면 숫자형태인 열만 계산합니다.

In [8]:

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

In [9]:

df.describe(include='all')

Out[9]:

	sepal_length	sepal_width	petal_length	petal_width	species
count	150.000000	150.000000	150.000000	150.000000	150
unique	NaN	NaN	NaN	NaN	3
top	NaN	NaN	NaN	NaN	setosa
freq	NaN	NaN	NaN	NaN	50
mean	5.843333	3.057333	3.758000	1.199333	NaN
std	0.828066	0.435866	1.765298	0.762238	NaN
min	4.300000	2.000000	1.000000	0.100000	NaN
25%	5.100000	2.800000	1.600000	0.300000	NaN
50%	5.800000	3.000000	4.350000	1.300000	NaN
75%	6.400000	3.300000	5.100000	1.800000	NaN
max	7.900000	4.400000	6.900000	2.500000	NaN

object타입도 보고 싶다면 다음과 같이 include='all'을 사용하여 출력할 수 있습니다.

In [13]:

from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))

저작자표시

'Python' 카테고리의 다른 글

[Pandas] Pandas Cheat Sheet(Make New Columns) (0)	2021.06.21
[Pandas] Pandas Cheat Sheet(Handling Missing Data) (0)	2021.06.21
[Pandas] Pandas Cheat Sheet(Subset Variables (Columns)) (0)	2021.06.20
[Pandas] Pandas Cheat Sheet(Subset Observations(Rows)) (0)	2021.05.23
[Pandas] Pandas Cheat Sheet(Reshaping Data) (0)	2021.05.20

Ruby, Data

[Pandas] Pandas Cheat Sheet(Summarize Data)

Summarize Data¶

value_counts¶

len¶

nunique¶

describe¶

'Python' 카테고리의 다른 글

티스토리툴바

[Pandas] Pandas Cheat Sheet(Summarize Data)

Summarize Data¶

value_counts¶

len¶

nunique¶

describe¶

'Python' 카테고리의 다른 글

관련글

티스토리툴바