728x90
Stopword (불용어)
: 큰 의미가 없는 즉 불필요한 용어를 의미합니다. ex(I, and 등)
Stopword(불용어)를 제거하지 않게되면 자주 등장하는 단어들로 인해서 분석에 부정적인 영향을 미칠 수 있습니다. 예를들어 너무 자주 등장하는 단어로 인해서 다른 단어들의 빈도수를 파악하기 어려운 문제등이 발생할 수 있습니다.
NLTK 패키지에서 제공하는 gutenberg data를 통해서 불용어 제거 예제를 해보도록 하겠습니다.
위 처럼 그냥 글자 개수많으로도 불필요한 단어들이 많이 제거되는 것을 확인할 수 있습니다.
그렇다면 길이가 짧은 단어들은 어떠한 종류들이 있었는지 확인해 볼 필요가 있습니다. 한번 확인 해보도록 합시다.
다음과 같은 단어들이 있었습니다. 이렇게 숫자로도 제거를 해볼 수 있지만 NLTK 패키지에서는 stopword 목록을 제공하고 있습니다. 이번에는 이것을 활용해서 불용어를 제거해보도록 하겠습니다.
글자 수를 활용해서 제거를 했을때와 비교를 해보면 'The'와 같은 불필요한 용어들이 제거됨을 확인할 수 있습니다.
'NLP' 카테고리의 다른 글
NLTK 패키지 활용한 텍스트 전처리 (2) 텍스트 정규화 (0) | 2020.10.07 |
---|---|
NLTK 패키지 활용한 텍스트 전처리 (1) 토큰화 (7) | 2020.10.07 |
Sentence Embedding Summary (0) | 2020.08.23 |
Word Embedding Summary (0) | 2020.08.23 |
konlpy 형태소 분석기 성능 비교 (0) | 2020.08.17 |