Statistics

Leverage vs Influence

rubyda 2021. 9. 12. 00:36
728x90

선형회귀에서의 이상치, Leverage, Influence에 대해서 정리해보자...

먼저 이상치는 다른 데이터들보다 멀리 떨어져 있는 값으로 극단값이라고 부른다. 이상치를 제거했을때 우리가 추정한 회귀선이 크게 변하게 된다면?? 이 값은 영향력이 있는 점이라고 할 수 있다. 다시 말하자면 Influence가 high 하다라고 말할 수 있다.


두 그래프를 비교해보자. 두개의 회귀선은 이상치를 포함 o, 포함 x를 의미한다. 왼쪽그래프는 이상치가 있고 없고에 따라서 회귀선의 차이가 약간 있다. 반면에 오른쪽 그래프는 이상치에 따라서 회귀선이 많이 변함을 볼 수 있다. 

따라서 두개의 이상치중에서 왼쪽 이상치는 Some Influence를 가지고 오른쪽 이상치는 High Influence를 가진다고 할 수 있다.


다음은 조금 다른 관점인 Leverage에 대해서 알아보자. 먼저 Leverage는 X의 극단 값을 가지는 데이터들을 High Leverage를 가진다고 한다. 

그래프를 다시 살펴보자. 왼쪽 이상치는 보통의 x값들과 비슷한 값을 가지고 있다. 따라서 이 이상치는 Low Leverage를 가진다. 하지만 오른쪽 그래프를 보자. 보통의 x값들에 비해 유독 왼쪽으로 치우쳐 있음을 알 수 있다. 따라서 오른쪽 이상치는 High Leverage를 가진다고 할 수 있다.

정리를 해보면 다음과 같다. 다른 이상치를 예시로 연습해보자.


왼쪽에 추가된 이상치는 Leverage는? 다른 x값들에 비해 멀리 떨어져 있기 때문에 High Leverage를 가진다. Influence는?? 점을 보면 회귀선에 매우 가깝게 위치함을 알 수 있다. 따라서 이 값을 제외에도 선에 영향을 미치지 않기 때문에 Low Influence가진다.

오른쪽에 추가된 이상치는 왼쪽과 동일하게 회귀선에 매우 가깝게 위치하기 때문에 Low Influence가지고, 다른 x값들과 비슷한 위치에 있기 때문에 Low Leverage를 가지게 된다.