TF-IDF (Term Frequency-Inverse Document Frequency) 정리 및 예제(키워드 추출) - [자연어 처리]
TF(Term Frequency) 1개의 문서안에서 특정 단어의 등장 빈도를 의미 문장을 단어로나누고, 전체 단어수가 얼마나 사용됐는디 파악해 문서의 종류를 분류하는 지표로 사용. ※ 1글자의 경우 생략하는 경우가 많음 DF(Document Frequency) 특정 단어가 나타나는 문서의 갯수를 의미 특정단어가 각 문선들에 몇 번 등장해는지는 신경쓰지 않고, 특정단어가 문서의 수에 등장했는지 안했는지만 관심을 가짐 ※ 100개의 문서중 2개의 문서만 '반도체' 라는 단어가 등장하면, 그 문서안의 '반도체'가 100번, 200번 등장했는지는 관심없고 오로지 'DF(반도체') == 2를 의미함 IDF(Inverse Document Frequency) 특정 단어 모든 문서에 등장하는 흔한 단어라면, 이를 방지..