본문 바로가기

전체 글153

NLTK 패키지 활용한 텍스트 전처리 (1) 토큰화 NLTK는 Natural Language ToolKit의 약자로 자연어 처리 및 분석을 위한 파이썬 패키지입니다. NLTK는 토큰생성하기, 형태소 분석, 품사 태깅하기 등 다양한 기능을 제공하고 있습니다. 문장 토큰화 (Sentence Tokenization) import nltk text = "I am a college student. I'm 23 years old. I like to read books." sentences = nltk.sent_tokenize(text) print(sentences) ['I am a college student.', "I'm 23 years old.I like to read books."] 줄바꿈 문자를 기준으로 나누기(LineTokenizer) # 줄바꿈을 기준으로.. 2020. 10. 7.
활성화 함수(Activation Function)의 종류 활성화 함수(Activation Function) 개념 활성화 함수란 어떠한 신호를 입력받아을때 이를 적절한 처리를 하여 출력해주는 함수입니다. 이를 통해 출력된 신호가 다음 단계에서 활성화 되는지를 결정합니다. 활성화 함수(Activation Function) 종류 (1) 시그모이드 함수(sigmoid function) (수식) 값이 작아질수록 0, 커질 수록 0에 수렴하는 구조이다. 출력이 0~1 사이로 즉 확률로 표현할 수 있다. 입력 값이 0에 가까울수록 출력이 빠르게 변한다. * (binary- class classification)에 많이 사용이 된다. (2) 하이퍼볼릭 탄젠트(tanh) (수식) 값이 작아질수록 -1, 커질 수록 1에 수렴하는 구조이다. 입력 값이 0에 가까울수록 출력이 빠르.. 2020. 10. 6.
Deep Learning Summary Reference http://www.yes24.com/Product/Goods/78569687 한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 www.yes24.com 2020. 8. 23.
Sentence Embedding Summary 한국어 임베딩을 읽으며 NLP를 위한 임베딩 중에서 핵심 포인트를 요약한 포스팅입니다. 이 글은 임베딩 기법 중 문장-수준 임베딩에 대해서 요악하였습니다. Reference http://www.yes24.com/Product/Goods/78569687 한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 www.yes24.com 2020. 8. 23.
Word Embedding Summary 한국어 임베딩을 읽으며 NLP를 위한 임베딩 중에서 핵심 포인트를 요약한 포스팅입니다. 이 글은 임베딩 기법 중 단어-수준 임베딩에 대해서 요악하였습니다. Reference http://www.yes24.com/Product/Goods/78569687 한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 www.yes24.com 2020. 8. 23.
konlpy 형태소 분석기 성능 비교 konlpy 형태소 분석기 성능 비교¶ In [2]: from konlpy.tag import Kkma from konlpy.tag import Komoran from konlpy.tag import Hannanum from konlpy.tag import Okt import re kkma = Kkma() komoran = Komoran() hannanum = Hannanum() okt = Okt() 형태소 분석 비교¶ 1. 띄어쓰기가 올바르지 않은 문장¶ In [20]: text = "아버지가방에들어가신다" In [21]: kkma.pos(text) Out[21]: [('아버지', 'NNG'), ('가방', 'NNG'), ('에',.. 2020. 8. 17.