본문 바로가기

Machine Learning36

규제 선형 모델 회귀 모델은 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야 합니다. 선형 모델의 비용함수를 RSS를 최소화하는 즉 실제 값과 예측값의 차이를 최소화하는 것만 고려하게되면 학습 데이터에 지나치게 맞추어지고 회귀 계수가 쉽게 커지게 됩니다. 이를 개선하기 위해서 비용 함수는 학습 데이터의 잔차 오류 값을 최소로 하는 RSS값을 최소로 하는 방법과 과적합 방지를 위해서 회귀 계수의 값이 커지지 않게 서로 균형을 이루도록 하는것이 중요합니다. 이것을 수식으로 표현하면 다음과 같이 표현할 수 있습니다. $$Min(RSS(W) + alpha * ||W||^2_{2})$$ 수식을 해석하면 alpha는 학습 데이터의 적합 정도와 회귀 계수 값의 크기를 제어해주는 튜닝 파라미터입니다. a.. 2020. 5. 27.
LinearRegression 실습( 주택 가격 예측) LinearRegression은 예측값과 실제 값의 RSS를 최소하해서 OLS(Ordinary Least Squares)추정 방식으로 구현한 클래스입니다. * OLS(Ordinary Least Squares)는 잔차제곱합(RSS, Residual Sum of Squares)를 최소화하는 가중치 벡터를 행렬 미분으로 구하는 방법입니다. 입력 파라미터fit_intercept: 디폴트 값은 True입니다. Intercept 값의 계산 여부를 설정합니다.만약 False로 설정하게 되면 Intercept가 사용되지 않고 0으로 설정됩니다.normalize: 디폴트 값은 False입니다. 만약 True로 설정하면 회귀를 수행하기 전에 입력 데이터 세트를 정규화 하여 줍니다.속성coef(): fit() 메서드를 수행.. 2020. 5. 27.
회귀란? 회귀란?? 회귀는 여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 의미합니다.예를들면 아파트의 방 개수, 화장실 크기 등의 독립변수에 따라서 아파트 가격인 종속변수가 어떤 관계를 가지는지를 모델링하고 예측하는 것입니다. 이를 선형 회귀식으로 표현하면 Y = W1*X1+W2*X2+W3*X2+ ... , Wn*Xn 이라고 했을떼 Y는 종속변수이고 X1, X2, Xn등은 방 개수, 화장실 크기 등을 의미합니다. W1, W2, W3, Wn은 독립변수의 영향을 미치는 회귀 계수입니다. 머신런닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터를 통해서 최적의 회귀 계수를 찾는 것입니다. 회귀계수는 다음과 같이 나누어 집니다.독립변수 개수회귀 계수의 결합1개: 단일 회귀선형: 선형 회귀여러 .. 2020. 5. 26.
ML 평가 지표 머신러닝 모델을 평가하기 위한 여러 가지 방법들이 존재합니다. 일반적으로는 크게 분류인지? 회귀인지?에 따라서 나누어지게 됩니다. 먼저 분류의 성능 평가 지표에 대해서 알아보도록 하겠습니다. 정확도 정확도(Accuracy)는 실제 데이터에서 예측한 데이터가 얼마나 동일한가를 판단해주는 지표입니다. 정확도는 특히 이진 분류의 경우 데이터의 구성 정도 에 따라서 모델의 성능을 왜곡할 가능성이 있습니다. 그렇기 때문에 정확도 하나만 가지고는 성능을 평가하면 안됩니다. 특히 정확도는 불균형한 레이블을 가지는 모델의 성능을 평가할 경우 적합하지 못한 평가 방법입니다. 예를 들어서 100개의 데이터 중 90개의 데이터의 레이블이 0, 10개의 데이터 레이블이 1이라고 했을때 무조근 그냥 0으로 예측 결과를 나타내주.. 2020. 5. 9.