데이터 사이언스/ML·DL
[NLP개념] Tokenizing, Tokenizer, Embedding, Word2Vec 개념
자연어 처리의 개념 자연어 처리 인간의 언어 텍스트를 컴퓨터로 표현하기 뜻, 문법과 같은 질적 특성을 표현, 처리할 수 있게 하는 것 텍스트를 개념·의미를 나타낼 수 있는 수로 바꾸어 나타내는 과정 문자처리와는 큰 차이가 있다. 형태소 분리(Tokenizing)와 형태소 분석기(Tokenizer) 형태소 분리 (Tokenizing) 문장—Tokenizing—> 형태소 형태소 —Embedding—> 형태소마다의 의미를 수로 표현 형태소 분석기 (Tokenizer) 전문가 분석/지도학습 기반 형태소 분석기 KoNLPy에서 Okt, Komoran, Mecab, Hannanum, Kkma를 지원 형태소 분석기별로 학습에 사용한 Corpus(말뭉치: 자연어처리를 위한 언어의 데이터셋)가 다름 필요한 경우 사용자 ..