본문 바로가기
머신러닝 야학 2기

[머신러닝 야학 2기] 2일차 - 표를 다루는 도구 '판다스'

by rubyda 2021. 1. 5.
728x90

https://ml.yah.ac/

 

https://opentutorials.org/course/4570/28971

 

표를 다루는 도구 '판다스' - 생활코딩

수업소개 '판다스'를 이용하여 데이터 다루는 방법을 배우는 수업입니다, 모델을 학습시키기 위하여 파일로부터 데이터를 읽어들이고, 독립변수와 종속변수를 분리하여 데이터 준비합니다.

opentutorials.org

 

표를 다루는 도구 '판다스' (강의)


지도학습을 진행하기 위해서는 첫번째로 과거의 데이터가 필요하다. 그런데 우리가 가진 데이터는 대부분 파일 형태로 되어있고 이를 활용하기 위해서는 프로그래밍으로 읽는 과정이 필요하다.

 

먼저, 변수(Variable)에 대해서 알아보도록 하자

 

X = 1

X = 2

 

이렇게 X에 값은 지정하는 값에 따라서 달라진다. 여기서 X가 바로 변수이다. 프로그램에서 변수는 데이터를 담고 있다를 의미한다. 에서는 변수는 칼럼을 의미한다. 다시 정리하면 표에서 변수는 관측치에 따라 값이 변한다는 의미를 담고 있다. 프로그램밍 관점과 데이터의 관점에서 변수라는 용어를 공통으로 쓰지만 그 사이에는 미묘한 차이가 존재한다.

 

그렇기 때문에 이 데이터가 프로그램 관점인지, 데이터의 관점인지 잘 파악하고 이해를 해야한다.

 

우리는 표에서 원인이 되는 변수를 독립변수, 결과가 되는 변수를 종속변수라고 한다.

 

지도학습에서는 이 두가지를 구분하는 것에서 시작을 한다. 이 작업을 위해서 우리는 판다스라는 라이브러리를 통해서 쉽게 해볼 수 있다.

 

판다스 라이브러리 사용법은 다음과 같다.

 

표를 다루는 도구 '판다스' (실습)


1. 판다스 라이브러리 불러오기

import pandas as pd

판다스 라이브러리를 불러오기 위해서는 다음과 같은 명령어가 필요하다. 설명을 추가하자면 pandas 라이브러리를 pd라고 편리하게 부르겠다는 뜻이다.

 

2. 데이터 읽어오기

# 파일로부터 데이터 읽어오기
file_path = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/lemonade.csv'
lemon = pd.read_csv(file_path)

다음은 데이터를 불러오는 방법입니다. 판다스 라이브러리에서는 csv 파일을 불러오는 명령어로 pd.read_csv가 있습니다.

 

3. 데이터 모양 확인

# 데이터 모양으로 확인
print(lemon.shape)
(6, 2)

데이터 모양은 다음과 같이 shape 을 통해 확인할 수 있습니다.

 

4. 독립변수와 종속변수 분리

# 칼럼이름 출력
print(lemon.columns)
Index(['온도', '판매량'], dtype='object')

먼저 다음과 같이 컬렴명을 확인하여 어떠한 변수를 독립, 종속 변수로 사용할 것인지 선택을 합니다.

# 독립변수와 종속변수 분리
X_data = lemon[['온도']]
Y_data = lemon[['판매량']]
print(X_data.shape,Y_data.shape)
(6, 1) (6, 1)

그 다음 다음과 같이 X_data, Y_data 라는 변수에 각각의 변수를 넣어줍니다. 이렇게 하면 우리는 X_data에 온도라는 독립변수를 Y_data에 판매량이라는 종속변수를 담게 되는 것입니다.