본문 바로가기
NLP

임베딩에 쓰이는 세가지 통계 정보

by rubyda 2020. 7. 15.
728x90

백오브워즈(bag of words)


- 백오브워즈(bag of words)가정에서는 어떤 단어가 많이 쓰였는지에 관한 정보를 중요하게 생각합니다. 글의 의도를 단어 사용의 여부나 그 빈도에서 나타난다고 생각하기 때문입니다. 

 

- 백오브워즈 가정에서 많이 쓰이는 통계량은 바로 TF-IDF(Term Frequency-Inverse Document Frequency)입니다.

 

언어 모델(language model)


- 언어모델은 단어의 등장 순서를 학습하여 주어진 단어의 시퀀스가 얼마나 자연스러운가에 대한 확률을 부여합니다. 백오브워즈와는 달리 등장 순서가 중요합니다.

 

- 예시에는 ELMo, GPT등 뉴런 네트워크 기반의 언어 모델들이 있습니다.

 

분포 가정(distributional hypothesis)


- 분포가정은 문장에서 어떤 단어가 같이 쓰였느지를 중요하게 생각합니다. 단어의 의미는 주변 문맥을 통해서 유추해 본다고 생각하기 때문입니다.

 

- 분포 가정의 대표적인 통계량은 점별 상호 정보량(PMI)입니다.

 

- 대표적인 예시로는 Word2Vec가 있습니다.

 

 

 

 

Reference


한국어 임베딩, 이기창 지음

 

'NLP' 카테고리의 다른 글

Sentence Embedding Summary  (0) 2020.08.23
Word Embedding Summary  (0) 2020.08.23
konlpy 형태소 분석기 성능 비교  (0) 2020.08.17
bag of words  (0) 2020.07.15
1.1 임베딩(embedding)  (0) 2020.07.15