본문 바로가기

Statistics10

좋은 선형 회귀 모델이란?? 좋은 선형 회귀 모델을 만들기 위해서는 좋은 선형 회귀 모델을을 만족해야 합니다. 1) 선형성 : 선형성은 예측하고자 하는 종속변수 Y와 독립변수 X간데 선형성을 만족하는 특성입니다. 만약 선형성을 만족하지 않는다고 한다면 데이터를 변환하는 방법이 필요합니다. 그 종류에는 다음과 같이 존재합니다. 로그 변환 지수 변환 루트 변환 다중 선형회귀를 진행하고 있다면 다른 새로운 변수를 추가하거나, 선형성을 만족하지 않는 변수를 제거하는 방법도 있습니다. 2) 독립성 : 독립성이란 독립변수 X간의 상관관계가 없이 독립성을 만족하는 특성입니다. 다중공선성이라고도 불리는 다시말해 독립변수의 상관관계가 있다면 제거할 필요가 있습니다. 3) 등분산성 : 분산이 동일하다는 의미로, 어떠한 특정한 패턴이 없이 고르게 분포.. 2021. 9. 4.
분산 공식 이해하기 분산이 어떻게 측정이 되는지 알아보도록 하자. 데이터의 퍼져 있는 양상을 어떻게 표현할 수 있을까? 가장 간단한 방법은 range함수를 이용하여 범위를 구하는 것이다. y 2021. 5. 13.
중심 경향(central tendency) 중심 경향(central tendency) 측정 값들이 어떤 값을 중심으로 모여 있는 양상을 보임 중심 경향은 어떻게 판단을 할 수 있을까?? 히스토그램을 그려보면 쉽게 알 수 있다. 위 그래프를 보면 최빈값은 1.10~1.12정도 라고 알 수 있다. 중심 경향 중에서 가장 대표적인 것은 산술평균이다. 즉 관측값을 모두 더해 데이터 수로 나눈값이다. 위의 데이터의 산술 평균값을 구하면 1.103464이 나온다. (R에서는 mean 함수로 구할 수 있음) 하지만 산술평균이 중심 경향에 어울리지 않는 경우가 있다. 바로 극단적으로 크거나 작은 값을 가지는 경우 평균은 이상치의 영향을 많이 받기 때문에 문제가 될 수 있다. 이때 대체할 수 있는 값이 바로 중앙값이다. 즉 데이터의 가운데 위치한 값이다. 위 데.. 2021. 3. 30.
통계에서 말하는 로버스트하다? 통계 공부를 하다가 "로버스트(robust)하다" 라는 말을 접하게 되었습니다. 무슨 뜻인지 모르겠어서 우선 단어의 뜻부터 찾아보니 "건장한"이라는 뜻으로 해석이 되었습니다. 이것만 보고는 감이 잘 안와서 찾아보며 그 의미를 알아보았습니다. 로버스트에 대해 공부를 할때 예제를 생각하며 하니 더 빠르게 이해할 수 있었습니다. 따라서 제가 이해한 방법을 정리하고자 합니다. 먼저, 로버스트를 정의해보면 다음과 같습니다. 로버스트(robust) : "극단값들에 예민, 민감하지 않다"라고 표현을 해볼 수 있습니다. 예를들어서 한 마을에 사는 사람들의 소득이 각각 11, 14, 12, 13 이라고 가정을 해보겠습니다. 그렇다면 이 마을 평균 소득은 12.5가 됩니다. 그런데 만약에 엄청난 부자가 이 동네에 이사를 .. 2021. 2. 8.