본문 바로가기
Statistics

회귀 분석 - 변수 선택과 모형 선택

by rubyda 2020. 10. 29.
728x90

전진선택법(Forward Selectin)(Forward Selection)

: 변수를 각 기여도에 따라서 하나씩 추가하는 방법

 

장점: 계산 시간이 빠르다.

단점: 한번 선택된 변수는 절대 제거되지 않기 때문에 중요하지 않은 변수가 남아 있을 수 있다.

알고리즘 구조

1) 상수항만 포함된 모형에서 시작한다.

2) 기존 모형과 변수를 하나 추가한 모형중에서 모형 선택 기준을 통하여 가장 좋은 모형을 선택한다.

3) 2단계에서 선택된 모형이 기존의 모형일 때까지 반복한다.

후진소거법(Backward Elimination)

: 모든 변수를 포함하는 모형에서 불필요한 변수를 하나씩 제거하는 방법

 

장점: 계산 시간이 빠르다.

단점: 한번 소거된 변수는 다시 선택되지 못하기 때문에 중요한 변수가 제거될 위험이 있다.

알고리즘 구조

1) 모든 변수가 포함된 모형에서 시작한다.

2) 기존의 모형과 변수를 하나 제거한 모형중에서 모형 선택 기준을 통하여 가장 좋은 모형을 선택한다.

3) 2단계에서 선택된 모형이 기존의 모형일 때까지 반복한다.

단계적 방법(Stepwise method)

: 단계 선택과 소거를 반복하면서 중요한 변수를 찾아내는 방법

 

장점: 선택되었던 변수가 소거될 수도 있고 소거되었던 변수가 다시 선택될 수도 있다(다시 말하자면 전진선택법과 후진소거법의 단점을 개선한 방법이다.)

단점: 시간이 오래걸린다.

알고리즘 구조

1) 적절한 모형에서 시작한다.

2) 기존의 모형, 변수를 하나 제거한 모형, 변수를 하나 추가한 모형 중에서 모형 선택 기준을 통해 가장 좋은 모형을 선택한다.

3) 2단계에서 선택된 모형이 기존의 모형일 때까지 반복한다.

 

 

코드 링크

github.com/jaaaamj0711/statistics/tree/master/Regression

 

jaaaamj0711/statistics

Contribute to jaaaamj0711/statistics development by creating an account on GitHub.

github.com

 

'Statistics' 카테고리의 다른 글

좋은 선형 회귀 모델이란??  (0) 2021.09.04
분산 공식 이해하기  (0) 2021.05.13
중심 경향(central tendency)  (0) 2021.03.30
통계에서 말하는 로버스트하다?  (0) 2021.02.08
다중공선성(Multicollinearity)  (0) 2020.11.12