차원축소는 매우 많은 피처들로 구성되어 있는 다차원의 데이터 세트를 차원을 축소하여 새로운 차원의 데이터 세트를 생성하는 것을 말합니다.
Q. 차원이 증가하게 되면??
일반적으로는 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되어 희소한?구조를 가지게 됩니다.
피처가 많을 경우 개별 피처들간에 상관관계가 높을 가능성이 크게 됩니다. 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 다중 공선성 문제로 모델의 예측 성능이 낮아지게 됩니다.
다차원의 피처를 차원축소를 통해서 피처 수를 줄이게 되면 더 직관적으로 데이터를 이해하고 해석 할 수 있습니다.
차원축소의 종류
차원촉소는 크게 피처 선택(feature selection) & 피처 추출(feature extraction)으로 나눌 수 있습니다.
- 피처 선택(feature selection)
특정 피처에 종속성이 강한 불필요한 피처들을 제거하고 데이터의 특징을 잘 나타내주는 주요 피처만 선택하는 방법
- 피처 추출(feature extraction)
피처를 차원의 중요 피처로 압축해서 추출하는 것입니다.
단순 압축이 아닌 피처를 함축적으로 더 잘 설명할 수 있도록 하는 것입니다.
ex) 학생을 평가하기 위해서 모의고사 성적, 내신성적, 봉사활동, 대외활동, 수상경력 등의 피처들이 있다고 했을때 이를 학업 성취도, 커뮤니케이션 능력, 문제 해결력등과 같은 더 함축적인 특성으로 추출하는 것
이렇게 차원 축소는 단순히 데이터의 압축을 의미하는 것이 아닌 데이터를 더 잘 설명할 수 있는 잠재적인 요소를 추출하는 것입니다.
차원축소의 예시
많은 픽셀로 이루어진 이미지 데이터에서 잠재된 특성을 피처로 도출해서 함축적 형태의 이미지 변환과 압축을 수행할 수 있습니다. 이렇게 하게 되면 원복 이미지보다 적은 차원이 되기 때문에 과적합의 영향력이 작아지게 됩니다.
텍스트 문서의 숨겨진 의미를 추출하는데 사용이 됩니다. 문서 내 단어들의 구성에서 숨겨지 있는 시맨틱의미나 토픽을 잠재 요소로 간주하고 찾아낼 수 있습니다.
'Machine Learning' 카테고리의 다른 글
특이값 분해(Singular Value Decomposition, SVD) (0) | 2020.08.11 |
---|---|
고유값, 고유벡터, 고유값 분해 (0) | 2020.08.11 |
회귀 실습 - (자전거 대여 수요 예측) (0) | 2020.05.28 |
회귀 실습 - (자전거 대여 수요 예측) (0) | 2020.05.28 |
회귀 평가 지표 (0) | 2020.05.27 |