728x90
좋은 선형 회귀 모델을 만들기 위해서는 좋은 선형 회귀 모델을을 만족해야 합니다.
1) 선형성 :
선형성은 예측하고자 하는 종속변수 Y와 독립변수 X간데 선형성을 만족하는 특성입니다. 만약 선형성을 만족하지 않는다고 한다면 데이터를 변환하는 방법이 필요합니다. 그 종류에는 다음과 같이 존재합니다.
- 로그 변환
- 지수 변환
- 루트 변환
다중 선형회귀를 진행하고 있다면 다른 새로운 변수를 추가하거나, 선형성을 만족하지 않는 변수를 제거하는 방법도 있습니다.
2) 독립성 :
독립성이란 독립변수 X간의 상관관계가 없이 독립성을 만족하는 특성입니다. 다중공선성이라고도 불리는 다시말해 독립변수의 상관관계가 있다면 제거할 필요가 있습니다.
3) 등분산성 :
분산이 동일하다는 의미로, 어떠한 특정한 패턴이 없이 고르게 분포해야 한다는 특성입니다. 등분산성의 주체는 잔차입니다.
잔차가 서로 상관관계가 있다면?? 추정된 회귀식으로 설명되는 않은 부분에서 다른 어떤 관계가 있다는 것을 의미하는 것으로 이는 회귀식의 설명력을 약하게 만듭니다.
4) 정규성
: 잔차가 정규성을 만족하는지에 대한 특성
잔차가 정규 분포 모양을 분포하고 있다면 좋은 선형 회귀 모델이라고 말할 수 있습니다.
선형 회귀 모델에서는 다음과 같은 가정을 취하고 있지만, 솔직히 우리가 분석하게 되는 많은 데이터에서는 다음을 만족하기 어렵다...
그래서 우선 분석을 진행해보고, 모델을 생성하고 나서 모델의 성능을 평가하는 부분에서도 위 가정들을 사용하는 것 같다.
'Statistics' 카테고리의 다른 글
선형 회귀 정리 1 (0) | 2021.10.02 |
---|---|
Leverage vs Influence (0) | 2021.09.12 |
분산 공식 이해하기 (0) | 2021.05.13 |
중심 경향(central tendency) (0) | 2021.03.30 |
통계에서 말하는 로버스트하다? (0) | 2021.02.08 |