728x90
백오브워즈(bag of words)
- 백오브워즈(bag of words)가정에서는 어떤 단어가 많이 쓰였는지에 관한 정보를 중요하게 생각합니다. 글의 의도를 단어 사용의 여부나 그 빈도에서 나타난다고 생각하기 때문입니다.
- 백오브워즈 가정에서 많이 쓰이는 통계량은 바로 TF-IDF(Term Frequency-Inverse Document Frequency)입니다.
언어 모델(language model)
- 언어모델은 단어의 등장 순서를 학습하여 주어진 단어의 시퀀스가 얼마나 자연스러운가에 대한 확률을 부여합니다. 백오브워즈와는 달리 등장 순서가 중요합니다.
- 예시에는 ELMo, GPT등 뉴런 네트워크 기반의 언어 모델들이 있습니다.
분포 가정(distributional hypothesis)
- 분포가정은 문장에서 어떤 단어가 같이 쓰였느지를 중요하게 생각합니다. 단어의 의미는 주변 문맥을 통해서 유추해 본다고 생각하기 때문입니다.
- 분포 가정의 대표적인 통계량은 점별 상호 정보량(PMI)입니다.
- 대표적인 예시로는 Word2Vec가 있습니다.
Reference
한국어 임베딩, 이기창 지음
'NLP' 카테고리의 다른 글
Sentence Embedding Summary (0) | 2020.08.23 |
---|---|
Word Embedding Summary (0) | 2020.08.23 |
konlpy 형태소 분석기 성능 비교 (0) | 2020.08.17 |
bag of words (0) | 2020.07.15 |
1.1 임베딩(embedding) (0) | 2020.07.15 |