본문 바로가기

전체 글153

차원 축소(Dimension Reduction) 차원 축소(Dimension Reduction)란?차원축소는 매우 많은 피처들로 구성되어 있는 다차원의 데이터 세트를 차원을 축소하여 새로운 차원의 데이터 세트를 생성하는 것을 말합니다. Q. 차원이 증가하게 되면??일반적으로는 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되어 희소한?구조를 가지게 됩니다. 피처가 많을 경우 개별 피처들간에 상관관계가 높을 가능성이 크게 됩니다. 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 다중 공선성 문제로 모델의 예측 성능이 낮아지게 됩니다. 다차원의 피처를 차원축소를 통해서 피처 수를 줄이게 되면 더 직관적으로 데이터를 이해하고 해석 할 수 있습니다. 차원축소의 종류차원촉소는 크게 피처 선택(feature selection) & 피처 추출(featur.. 2020. 6. 17.
회귀 실습 - (자전거 대여 수요 예측) 파이썬을 통해서 자전거 수요 데이터를 사용해서 회귀 실습을 해보았습니다. 이번에는 똑같이 R을 사용해서 코드를 변경하고 비교해 가면서 공부를 해보겠습니다. In # 패키지 불러오기 # library(lubridate) library(MLmetrics) library(caret) library(stats) library(dummies) bike_data 2020. 5. 28.
회귀 실습 - (자전거 대여 수요 예측) 캐글에서 제공하는 자전거 대여수요 데이터를 사용해서 선형 회귀와 트리 기반 회귀를 비교해 가며 공부를 해보겠습니다. import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline bike_df = pd.read_csv("./bike_train.csv") bike_df.head() bike_df.info() 데이터를 살펴보면 NULL 데이터는 없으며 대부분 int와 float 숫자형이고 datetime 컬럼은 object형을 가지고 있습니다. datetime 칼럼을 년, 월, 일, 시간으로 분리하도록 하겠습니다. 그렇기 위해서는 먼저 문자열을 datetime 타입으로 변.. 2020. 5. 28.
회귀 평가 지표 회귀의 평가를 위한 지표는 실제 값과 예측값의 차이를 기반으로 이루어집니다. MAE, MSE, RMSE, RMSLE등은 값이 작을수록 좋고 R²은 값이 클수록 좋습니다. 회귀 평가 지표 종류 MAE (Mean Absolue Error) : 실제 값과 예측값의 차이를 절댓값으로 변환하여 평균한 것입니다. $$ MAE = \frac{1}{n}\sum_{i=1}^{n}|Yi-\hat{Y}i|$$ MSE (Mean Squared Error): 실제 값과 예측값의 차이를 제곱해 평균한 것입니다. $$ MSE = \frac{1}{n}\sum_{i=1}^{n}(Yi-\hat{Y}i)^2$$ RMSE (Root Mean Squared Error): MSE값은 오류의 제곱을 구하는것이기 때문에 실제 오류 평균보다 더 커.. 2020. 5. 27.
로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘입니다. 로지스틱 회귀가 선형 회귀와 다른점은 학습을 통해서 선형 함수의 회귀 최적선을 찾는 것이 아니라 시그모이드(Sigmod)함수를 사용해서 최적선을 찾고 이 시그모이드 함수의 반환값을 확률로 간주하여 분류를 결정한다는 것입니다. 시그모이드 함수의 정의는 다음과 같습니다. $$f(x) = \frac{1}{1+e^{-x}}$$ 그래프를 통해서도 알 수 있듯이 시그모이드 함수는 x값이 아무리 커지거나 작아져도 Y값은 항상 0과 1사이에 존재합니다. 이번 예제에서는 회귀 문제를 분류 문제에 적용해 보도록 하겠습니다. 종양의 크기에 따라서 악성(1) 인지 아닌지(0)을 회귀를 통해서 1과 0의 값으로 예측해 보도록 하겠습니다. import pandas .. 2020. 5. 27.
규제 선형 모델 회귀 모델은 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야 합니다. 선형 모델의 비용함수를 RSS를 최소화하는 즉 실제 값과 예측값의 차이를 최소화하는 것만 고려하게되면 학습 데이터에 지나치게 맞추어지고 회귀 계수가 쉽게 커지게 됩니다. 이를 개선하기 위해서 비용 함수는 학습 데이터의 잔차 오류 값을 최소로 하는 RSS값을 최소로 하는 방법과 과적합 방지를 위해서 회귀 계수의 값이 커지지 않게 서로 균형을 이루도록 하는것이 중요합니다. 이것을 수식으로 표현하면 다음과 같이 표현할 수 있습니다. $$Min(RSS(W) + alpha * ||W||^2_{2})$$ 수식을 해석하면 alpha는 학습 데이터의 적합 정도와 회귀 계수 값의 크기를 제어해주는 튜닝 파라미터입니다. a.. 2020. 5. 27.