Machine Learning36 TF-IDF란? TF-IDF 알아보기 전에 TF-IDF를 왜 사용하는지에 대해 정리해보도록 합니다. 먼저 TF-IDF는 특징을 추출하는 방법 중 하나입니다. 많이 사용되는 방법으로 CountVectorizer이 있습니다. 이름처럼 말 그대로 count기반으로 특징을 추출하는 방법입니다. 하지만 단순 카운트로 특징을 추출했을때의 문제점은 무엇일까요?? 영어나 한국에서 많이 사용되는 단어들을 생각해 봅시다. 예를들면 The, 조사 등이 있습니다. 하지만 이러한 단어들을 실제로 큰 의미가 없는 단어들입니다. 이러한 상황을 보완하여 나온것이 바로 TF-IDF입니다. TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어.. 2021. 1. 21. 특이값 분해(Singular Value Decomposition, SVD) 고유값 분해는 정방 행렬에 대해서만 가능하다고 배웠습니다. 그렇다면 다른 행렬들은 분해를 못하는 걸까요?? 아니요!! 바로 특이값 분해라는 것이 있는데요. 특이값 분해는 정방 행렬뿐만 아니라 행과 열의 크기가 다른 모든 직각 행렬에 적용을 할 수 있습니다. 특이값 분해먼저 특이값 분해는 실수 벡터 공간에 한정하여서 설명합니다. 특이값 분해는 행렬 A가 m X n 행렬일때, 아래 수식과 같이 3개의 행렬의 곱으로 분해되는 것을 말합니다. 직교행렬: 자신과 자신의 전치 행렬의 곱 또는 이를 반대로 곱한 결과가 단위행렬이 되는 행렬 대각행렬: 주 대각선을 제외한 모든 원소가 모두 0인 행렬 1. 전치 행렬(Transposed Matrix)전치 행렬은 행과 열을 교환하여서 얻은 행렬입니다. 다시 말하자면 주대각.. 2020. 8. 11. 고유값, 고유벡터, 고유값 분해 고유값과 고유벡터 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터를 고유벡터라고 하고 이 상수배의 값을 고유값이라고 합니다. 다시 말하자면 n X n 정방행렬 A에 대해 Av = λv를 만족하는 0이 아닌 열벡터 v를 고유벡터, 상수 λ를 고유값이라 정의합니다. (고유값, 고유벡터는 정방행렬에 대해서만 정의합니다.) - 정방행렬: 열과 행의 개수가 동일한 행렬을 정방 행렬이라고 합니다. 추가 설명을 하자면 먼저 선형 변환은 벡터에 사칙연산을 해주겠다! 라고 생각하면 됩니다. Av = λv를 보고 설명을 해보면 벡터 v에 행렬 A를곱하는 것을 '벡터 v에 선형 변환 A를 해주었다.'라고 이야기 할 수 있습니다. 그렇다는 것은 Av는 v벡터에 선형 변환 A를 해주었다는 뜻이겠죠??.. 2020. 8. 11. 차원 축소(Dimension Reduction) 차원 축소(Dimension Reduction)란?차원축소는 매우 많은 피처들로 구성되어 있는 다차원의 데이터 세트를 차원을 축소하여 새로운 차원의 데이터 세트를 생성하는 것을 말합니다. Q. 차원이 증가하게 되면??일반적으로는 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되어 희소한?구조를 가지게 됩니다. 피처가 많을 경우 개별 피처들간에 상관관계가 높을 가능성이 크게 됩니다. 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 다중 공선성 문제로 모델의 예측 성능이 낮아지게 됩니다. 다차원의 피처를 차원축소를 통해서 피처 수를 줄이게 되면 더 직관적으로 데이터를 이해하고 해석 할 수 있습니다. 차원축소의 종류차원촉소는 크게 피처 선택(feature selection) & 피처 추출(featur.. 2020. 6. 17. 이전 1 2 3 4 5 ··· 9 다음