임베딩에 쓰이는 세가지 통계 정보

728x90

백오브워즈(bag of words)

- 백오브워즈(bag of words)가정에서는 어떤 단어가 많이 쓰였는지에 관한 정보를 중요하게 생각합니다. 글의 의도를 단어 사용의 여부나 그 빈도에서 나타난다고 생각하기 때문입니다.

- 백오브워즈 가정에서 많이 쓰이는 통계량은 바로 TF-IDF(Term Frequency-Inverse Document Frequency)입니다.

- 언어모델은 단어의 등장 순서를 학습하여 주어진 단어의 시퀀스가 얼마나 자연스러운가에 대한 확률을 부여합니다. 백오브워즈와는 달리 등장 순서가 중요합니다.

- 예시에는 ELMo, GPT등 뉴런 네트워크 기반의 언어 모델들이 있습니다.

- 분포가정은 문장에서 어떤 단어가 같이 쓰였느지를 중요하게 생각합니다. 단어의 의미는 주변 문맥을 통해서 유추해 본다고 생각하기 때문입니다.

- 분포 가정의 대표적인 통계량은 점별 상호 정보량(PMI)입니다.

- 대표적인 예시로는 Word2Vec가 있습니다.

Reference

한국어 임베딩, 이기창 지음