딥러닝/자연어처리

딥러닝/자연어처리

TF-IDF (Term Frequency-Inverse Document Frequency) 정리 및 예제(키워드 추출) - [자연어 처리]

TF(Term Frequency) 1개의 문서안에서 특정 단어의 등장 빈도를 의미 문장을 단어로나누고, 전체 단어수가 얼마나 사용됐는디 파악해 문서의 종류를 분류하는 지표로 사용. ※ 1글자의 경우 생략하는 경우가 많음 DF(Document Frequency) 특정 단어가 나타나는 문서의 갯수를 의미 특정단어가 각 문선들에 몇 번 등장해는지는 신경쓰지 않고, 특정단어가 문서의 수에 등장했는지 안했는지만 관심을 가짐 ※ 100개의 문서중 2개의 문서만 '반도체' 라는 단어가 등장하면, 그 문서안의 '반도체'가 100번, 200번 등장했는지는 관심없고 오로지 'DF(반도체') == 2를 의미함 IDF(Inverse Document Frequency) 특정 단어 모든 문서에 등장하는 흔한 단어라면, 이를 방지..

딥러닝/자연어처리

워드 임베딩(Word Embedding),희소표현, 밀집표현 정리 - [자연어 처리]

워드 임베딩 워드 임베딩이란? 텍스트 분석을 위해서 단어를 표현하는 데 사용되는 용어로, 일반적으로 벡터 공간에서 더 가까운 단어가 예상되도록 단어의 의미를 벡터 형식으로 표현하는 방법 ※ 크게 희소표현과 밀집표현의 형태로 나눌 수 있다. 희소 표현 문장을 벡터로 표현 할 때, 표현하고자 하는 단어의 인덱스 값이 1이고, 나머지 값들이 전부 0과 같은 희소행렬 방식으로 표현된 방법. 희소행렬 - 대부분의 행렬 값이 0을 가리키는 표현 자연어 에서는 원-핫 인코딩과 같은 방식을 희소 표현이라고 표현 예제) "나는 오늘부터 자연어 처리 공부한다" 라는 문장을 표현시 { 나는 : 3, 오늘부터 : 1, 자연어 : 2, 처리 : 5, 공부한다 : 4 } [[0. 0. 1. 0. 0] [1. 0. 0. 0. 0...

1Seok
'딥러닝/자연어처리' 카테고리의 글 목록