분류 전체보기153 Word Embedding Summary 한국어 임베딩을 읽으며 NLP를 위한 임베딩 중에서 핵심 포인트를 요약한 포스팅입니다. 이 글은 임베딩 기법 중 단어-수준 임베딩에 대해서 요악하였습니다. Reference http://www.yes24.com/Product/Goods/78569687 한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 www.yes24.com 2020. 8. 23. konlpy 형태소 분석기 성능 비교 konlpy 형태소 분석기 성능 비교¶ In [2]: from konlpy.tag import Kkma from konlpy.tag import Komoran from konlpy.tag import Hannanum from konlpy.tag import Okt import re kkma = Kkma() komoran = Komoran() hannanum = Hannanum() okt = Okt() 형태소 분석 비교¶ 1. 띄어쓰기가 올바르지 않은 문장¶ In [20]: text = "아버지가방에들어가신다" In [21]: kkma.pos(text) Out[21]: [('아버지', 'NNG'), ('가방', 'NNG'), ('에',.. 2020. 8. 17. 정규표현식(regular expression) 정규표현식(regular expression) 정규표현식은 복잡한 문자열을 처리할 때 유용하게 사용하는 방법입니다. 특히 크롤링할때 굉장히 유용하게 사용이 됩니다. 정규표현식 모듈 (re) 파이썬에서는 정규 표현식을 지원하기 위해서 re 모듈을 제공하여 줍니다. re 모듈을 사용하면 특정 패턴과 일치하는 문자열을 검색, 치환, 제거 등을 할 수 있습니다. raw string r을 문자열 앞에 붙이면 문자열을 그대로 변환하여 줍니다. In a = 'abcdef\n' print(a) b = r'abcdef\n' print(b) Out abcdef abcdef\n 파이썬에서는 \n이 개행문자로 사용이 되는데 위와 같이 r을 써주면 문자 그대로 인식하게 됩니다. 정규표현식 메타 문자 정규표현식에서 사용하는 메타.. 2020. 8. 15. 특이값 분해(Singular Value Decomposition, SVD) 고유값 분해는 정방 행렬에 대해서만 가능하다고 배웠습니다. 그렇다면 다른 행렬들은 분해를 못하는 걸까요?? 아니요!! 바로 특이값 분해라는 것이 있는데요. 특이값 분해는 정방 행렬뿐만 아니라 행과 열의 크기가 다른 모든 직각 행렬에 적용을 할 수 있습니다. 특이값 분해먼저 특이값 분해는 실수 벡터 공간에 한정하여서 설명합니다. 특이값 분해는 행렬 A가 m X n 행렬일때, 아래 수식과 같이 3개의 행렬의 곱으로 분해되는 것을 말합니다. 직교행렬: 자신과 자신의 전치 행렬의 곱 또는 이를 반대로 곱한 결과가 단위행렬이 되는 행렬 대각행렬: 주 대각선을 제외한 모든 원소가 모두 0인 행렬 1. 전치 행렬(Transposed Matrix)전치 행렬은 행과 열을 교환하여서 얻은 행렬입니다. 다시 말하자면 주대각.. 2020. 8. 11. 이전 1 ··· 26 27 28 29 30 31 32 ··· 39 다음