본문 바로가기
비정형데이터분석

[비정형 데이터 분석] 비정형 데이터란?

by rubyda 2021. 3. 3.
728x90
Introduction

비정형데이터분석 과목을 수강하며 공부한 내용을 정리하는 포스팅입니다.


해당글은 순천향대학교 빅데이터공학과 우지영 교수님이 진행하시는 "비정형데이터분석" 강의를 기반으로 작성되었습니다.

 

비정형 데이터

1. 비정형 데이터란?

비정형 데이터란 미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보라고 위키백과에서 정의하고 있습니다.

 

그렇다면 비정형 데이터 분석의 최종 목표는 무엇일까요??

바로 정리되어 있지 않은 자료에서 정돈된 데이터인 즉, Tidy data를 만드는 것입니다.

 

2. 비정형 데이터 분석 예시

비정형 데이터의 예시로는 어떤한 것들이 있을까요?? 흔히, 텍스트, 음성, 영상등이 있습니다. 

(1) 텍스트 데이터 분석

텍스트를 조금 더 설명하자면 텍스트는 데이터 베이스 기반으로 고정된 필드에 정리되어 있지 않은 데이터입니다. 그래서 이러한 비정형 데이터들은 정형 데이터로 바꿔주는 작업이 필요합니다. 텍스트는 다음과 같은 예시로 정형 데이터로 바꿔줄 수 있습니다.

 

 

https://www.quora.com/What-is-a-tf-idf-vector

 

 

왼쪽에 있는 텍스트 형태의 데이터들을 오른쪽과 같이 Term-document 형태로 만들면서 정형 데이터로 바뀌게 됩니다.

 

(2) 신호 데이터 분석

 

비정형 데이터 분석에서 대표적인 예시로 신호데이터가 있습니다. 신호는 물리량의 변화 형태를 담은 일련의 자료의 집합이라고 말합니다. 예시로는 전압, 전류, ECG, EEG, 주식가격등이 있습니다. 

 

우리는 신호데이터에서 신호가 변화하는 양상 속에서 정보를 찾을 수 있습니다.

 

신호 데이터 분석 예시들을 살펴보도록 하겠습니다.

 

> 전력 소비 추이

 

http://energynow.kr/?p=1619

다음은 전력 소비 추이를 나타내는 그래프입니다. 이 예시는 비정형 데이터 분석에서도 신호 데이터 분석에 해당됩니다.

 

> 심전도 신호의 파형

 

https://www.researchgate.net/figure/PQRST-Complex-Wave-5_fig2_313082848

다음은 심전도 신호의 파형에 관한 그림입니다. 우선 PQRST의 의미보다는 이것으로 어떻게 의미를 도출할 수 있는지를 설명하도록 하겠습니다. 

 

우리는 위 신호 데이터를 통해서 각 피크의 크기는 어떠한지 등을 비교해 보면서 심장의 상태를 분석할 수 있습니다. 예를 들어 PR사이의 거리를 구한다거나 등을 통해 통계적으로 계산해서 새로운 값들을 추출해볼 수도 있습니다.

 

만약 의학적인 지식이 더해진다면 더 많은 정보를 추출할 수 있겠습니다. 그래서 데이터 분석에서는 도메인 지식이 정말 중요하다는 것을 다시 한번 느끼게 되었습니다.