Introduction
비정형데이터분석 과목을 수강하며 공부한 내용을 정리하는 포스팅입니다.
해당글은 순천향대학교 빅데이터공학과 우지영 교수님이 진행하시는 "비정형데이터분석" 강의를 기반으로 작성되었습니다.
비정형 데이터를 분석할때 원본 데이터로는 어떠한 특징을 파악하기 어려운 경향이 있습니다. 따라서 우리는 원본 데이터에서 대표하는 값들을 활용하여 분석하는 것이 필요합니다.
일반적으로 우리는 통계치들을 활용해서 대표값들을 추출할 수 있습니다. 데이터의 종류에 대한 도메인 지식이 포함된다면 통계치 의외에도 다른 의미있는 값들을 추출할 수 있습니다.
지금은 도메인 지식이 없다고 가정을 하고 일반적으로 많이 사용하는 통계치들에 대해 알아보도록 하겠습니다.
크게 중심화 경향, 퍼짐 정도, 분포형태와 대칭정도로 나누어 지는데 먼저 중심화 경향에 대해 알아보도록 하겠습니다.
중심화 경향(central tendency) : 대표값
(1) 산술평균
표본을 모두 더해서 표분수로 나누는 값
예를 들어 소득의 평균을 구하는 경우 편차가 크게되는 경향이 있기 때문에 데이터를 잘 살표본 후 대표값으로 적절한지 파악 후 사용해야 합니다.
(2) 중앙값
표본에서 중앙에 위치하는 값
(3) 최빈값
표본에서 가장 많이 발생하는 값
(4) 기하평균
각 요소들을 곱한 후 루트를 취한 값
기하평균은 보통 상승률이나 하락률을 구할때 사용됩니다.
예시로 이해를 해보도록 하겠습니다. 1,000원의 주식이 10% 상승 후 10% 하락 했다고 가정을 했을때 산술적인 의미로만 보면 10%+ 다음 10%- 이기 때문에 가격의 변동이 없다라고 생각을 할 수 있습니다. 하지만 다시 생각을 해보면
1,000이 10% 상승을 하면 가격은 1,100원이 됩니다. 이 상태에서 10% 하락을 하게 되면 결국엔 990이 되는거으로 결론은 가격의 하락하게 되는 상황입니다.
위의 예시처럼 우리는 상승률과 하락률에 대한 값을 기항 평균으로 계산을 할 수 있습니다. 실제 식은 아래와 같습니다.
(1.1 x 0.9)^0.5 = 0.99 -> 1,000 * 0.99 - 990
(5) 조화평균
각 요소의 역수를 산술평균한 후 그 값을 다시 역수로 변환한 것
왕복속력을 계산할때, F1-Score 계산시 주로 사용합니다.
예를 들어 두 지점 A, B에 대하여 갈때는 시속 10Km/h, 올때는 시속 20Km/h로 왕복했다면,
평균속력은 조화평균인 13.33Km/h가 됩니다.
• (1/10 + 20/1)^(-1) = 2 x (3/20)^(-1) = 40/3 = 13.33
(6) 가중평균
가중 산술 평균은 자료의 평균을 구할 때 자료 값의 중요도나 영향 정도에 해당하는 가중치를 반영하여 구한 평균값이다.
예를들어서 과학고등학교 신입생을 뽑으려 할때 중학교 성적에서 과학과 수학에 가중치를 높게 두는 경우가 있습니다.
다음은 R에서 제공하는 중심화 경향 관련 함수들입니다.
산술 통계 | 통계량 | R function |
중심화 경향 (central tedency) |
산술평균 | mean() |
중앙값 | median() | |
최빈값 | which.max(table()) | |
기하평균 | prob(x)^(1/n) where, n = length(x) |
|
조화평균 | 1/mean(1/x) | |
가중평균 |
'비정형데이터분석' 카테고리의 다른 글
[비정형 데이터 분석] 변화 분석 (0) | 2021.04.07 |
---|---|
[비정형 데이터 분석] Peak로 특징 찾기 (0) | 2021.03.24 |
[비정형 데이터 분석] 분포형태와 대칭정도(distribution, symmetry) (0) | 2021.03.23 |
[비정형 데이터 분석] 퍼짐 정도(dispersion) (0) | 2021.03.23 |
[비정형 데이터 분석] 비정형 데이터란? (0) | 2021.03.03 |