중심 경향(central tendency)
측정 값들이 어떤 값을 중심으로 모여 있는 양상을 보임
중심 경향은 어떻게 판단을 할 수 있을까?? 히스토그램을 그려보면 쉽게 알 수 있다.
위 그래프를 보면 최빈값은 1.10~1.12정도 라고 알 수 있다.
중심 경향 중에서 가장 대표적인 것은 산술평균이다. 즉 관측값을 모두 더해 데이터 수로 나눈값이다. 위의 데이터의 산술 평균값을 구하면 1.103464이 나온다. (R에서는 mean 함수로 구할 수 있음)
하지만 산술평균이 중심 경향에 어울리지 않는 경우가 있다. 바로 극단적으로 크거나 작은 값을 가지는 경우 평균은 이상치의 영향을 많이 받기 때문에 문제가 될 수 있다.
이때 대체할 수 있는 값이 바로 중앙값이다. 즉 데이터의 가운데 위치한 값이다. 위 데이터에서 중앙값을 구하면 1.108847이 나온다.(R에서는 median 함수로 구할 수 있음)
산술평균과 중앙값 두가지 다 중심 경향 척도로 합당하지 않은 경우도 있다. 바로 합이 아닌 곱의 형식으로 진행되는 과정이다. 이때는 기하평균을 사용해야 한다. 기하평균은 데이터를 모두 곱한 값의 n 제곱근으로 구할 수 있다.
기하 평균의 예시로는 다섯개의 나무에 있는 벌레의 수가 10, 1, 1000, 1, 10이라고 했을때 이 다섯개의 수치를 모두 곱하면 100,000이다. 숫자가 다섯개이므로 5제곱근을 계산하게 되면 10이 나온다.
즉 벌레수의 기하평균은 10이되는 것이다. 다섯개의 나무중 벌레가 10인 나무가 두개인것으로 봐서는 기하평균값이 중심 경향으로 적당해 보인다. 산술 평균으로 구해보면 204.4가 나오게 되는데, 1000이라는 숫자의 영향을 많이 받아서 이러한 결과가 나오는 것이다.
여러 일반적인 과학적 주제에서 기하평균을 고려할때가 있다고 한다.
다음 그림을 보면 어느 집단의 변화가 더 심하다고 생각하나?? 처음에는 위에가 변화가 심한것 같았다. 결론은 아니다. 이렇게 두개의 집단을 비교할때는 Y축을 잘 봐야한다. 위에 데이터는 100, 200 즉 2배, 0.5 패턴으로 변화를 하고 있다. 밑에 데이터는 10, 20, 즉 2배 0.5패턴으로 변화를 하고 있다. (그림에서는 10, 20이 표현되어 있지 않지만 실제로 저 위치의 값은 10, 20 임을 가정)
정리하자면 두 집단의 변화는 동일하다. 이렇게 곱의 형식으로 변화하는 데이터를 다룰 때는 원래의 데이터에 로그를 취하여 그래프를 그려봐야 한다.
로그를 취하면 다음과 같이 동일하게 나타남을 알 수 있다.
다음 예제를 생각해보자. 코끼리가 2km 모서리로 이루어진 정사각형 모양 영역을 활동한다고 하자. 코끼리는 첫번째 모서리를 1km/hr 속도로, 두번째 모서리를 2km/hr, 세번째 모서리를 4km/hr, 네번째 모서리를 1km/hr를 걷는다.
이때 평균 속도는 얼마일까?? (1+2+4+1)/4 일까?? 아니다.
먼저, 속도는 거리/시간으로 계산을 하게 된다. 우리는 이동거리는 4*2 = 8로 쉽게 구할 수 있다. 이제 시간을 구해보자. 시간은 거리/속력으로 계산이 된다. 공식에 의하면 첫번째 모서리는 2km를 1km/hr로 걸어 2시간이 걸리고, 두번째 모서리는 2km를 2km/hr로 걸어 1시간이 걸리고, 세번째 모서리는 2km를 4km/hr로 걸어 0.5시간이 걸리고, 네번째 모서리는 2km를 1km/hr로 걸어 2시간이 걸리게 된다.
걸린 시간을 모두 더하면 (2+1+0.5+2) = 5.5 시간이 된다. 따라서 평균 속도는 8/5.5 = 1.4545가 되는것이다.
이러한 예시일때 사용하는 방법이 조화 평균이다. 조화 평균은 역수의 평균을 구하고 그 역수를 계산하는 것이다.
> v<- c(1,2,4,1)
> 1/mean(1/v)
[1] 1.454545
R에서는 다음과같이 구할 수 있다.
이번 포스팅 내용과 관련한 글은 요기에서도 볼 수 있다.
참고
크롤리의 통계학 강의
'Statistics' 카테고리의 다른 글
좋은 선형 회귀 모델이란?? (0) | 2021.09.04 |
---|---|
분산 공식 이해하기 (0) | 2021.05.13 |
통계에서 말하는 로버스트하다? (0) | 2021.02.08 |
다중공선성(Multicollinearity) (0) | 2020.11.12 |
회귀 분석 - 변수 선택과 모형 선택 (0) | 2020.10.29 |