본문 바로가기

Statistics10

다중공선성(Multicollinearity) 다중공선성이란? 다중공선성이란 독립변수들간에 강한 상관관계가 존재하는 경우를 말합니다. 다중공선성이 존재하면 회귀분석의 전제조건을 위반하게 됩니다. (서로 독립인 변수들로 구성되어 있다.) 다중공선성이 존재하면 상관관계가 높지만 상관관계가 높다고 해서 반드시 다중공선성이 존재하는 것은 아닙니다. 다중공선성을 판단하는 기준은? - 분산 팽창 인수(VIF, Variance Inflation Factor) - 보통 10이상일때 심각한 다중공선성이 존재한다고 판단을 합니다.(5 이상이면 다중공선성 존재 가능성이 있음) 다중공선성을 해결하는 방법은?? 1. (변수선택법) 다중공선성에 영향을 주는 변수들을 제거한다. - 다중공선성에 영향을 주는 변수들 중에서 종속변수와 상관관계가 낮은 변수들을 제거한다. - 제거를.. 2020. 11. 12.
회귀 분석 - 변수 선택과 모형 선택 전진선택법(Forward Selectin)(Forward Selection) : 변수를 각 기여도에 따라서 하나씩 추가하는 방법 장점: 계산 시간이 빠르다. 단점: 한번 선택된 변수는 절대 제거되지 않기 때문에 중요하지 않은 변수가 남아 있을 수 있다. 알고리즘 구조 1) 상수항만 포함된 모형에서 시작한다. 2) 기존 모형과 변수를 하나 추가한 모형중에서 모형 선택 기준을 통하여 가장 좋은 모형을 선택한다. 3) 2단계에서 선택된 모형이 기존의 모형일 때까지 반복한다. 후진소거법(Backward Elimination) : 모든 변수를 포함하는 모형에서 불필요한 변수를 하나씩 제거하는 방법 장점: 계산 시간이 빠르다. 단점: 한번 소거된 변수는 다시 선택되지 못하기 때문에 중요한 변수가 제거될 위험이 있다.. 2020. 10. 29.