본문 바로가기
Statistics

Leverage vs Influence

by rubyda 2021. 9. 12.
728x90

선형회귀에서의 이상치, Leverage, Influence에 대해서 정리해보자...

먼저 이상치는 다른 데이터들보다 멀리 떨어져 있는 값으로 극단값이라고 부른다. 이상치를 제거했을때 우리가 추정한 회귀선이 크게 변하게 된다면?? 이 값은 영향력이 있는 점이라고 할 수 있다. 다시 말하자면 Influence가 high 하다라고 말할 수 있다.


두 그래프를 비교해보자. 두개의 회귀선은 이상치를 포함 o, 포함 x를 의미한다. 왼쪽그래프는 이상치가 있고 없고에 따라서 회귀선의 차이가 약간 있다. 반면에 오른쪽 그래프는 이상치에 따라서 회귀선이 많이 변함을 볼 수 있다. 

따라서 두개의 이상치중에서 왼쪽 이상치는 Some Influence를 가지고 오른쪽 이상치는 High Influence를 가진다고 할 수 있다.


다음은 조금 다른 관점인 Leverage에 대해서 알아보자. 먼저 Leverage는 X의 극단 값을 가지는 데이터들을 High Leverage를 가진다고 한다. 

그래프를 다시 살펴보자. 왼쪽 이상치는 보통의 x값들과 비슷한 값을 가지고 있다. 따라서 이 이상치는 Low Leverage를 가진다. 하지만 오른쪽 그래프를 보자. 보통의 x값들에 비해 유독 왼쪽으로 치우쳐 있음을 알 수 있다. 따라서 오른쪽 이상치는 High Leverage를 가진다고 할 수 있다.

정리를 해보면 다음과 같다. 다른 이상치를 예시로 연습해보자.


왼쪽에 추가된 이상치는 Leverage는? 다른 x값들에 비해 멀리 떨어져 있기 때문에 High Leverage를 가진다. Influence는?? 점을 보면 회귀선에 매우 가깝게 위치함을 알 수 있다. 따라서 이 값을 제외에도 선에 영향을 미치지 않기 때문에 Low Influence가진다.

오른쪽에 추가된 이상치는 왼쪽과 동일하게 회귀선에 매우 가깝게 위치하기 때문에 Low Influence가지고, 다른 x값들과 비슷한 위치에 있기 때문에 Low Leverage를 가지게 된다.

'Statistics' 카테고리의 다른 글

Hypothesis Testing  (0) 2021.10.20
선형 회귀 정리 1  (0) 2021.10.02
좋은 선형 회귀 모델이란??  (0) 2021.09.04
분산 공식 이해하기  (0) 2021.05.13
중심 경향(central tendency)  (0) 2021.03.30