DTM은 벡터가 단어 집합의 크기를 가지며, 대부분의 원소가 0을 가진다.
각 단어는 고유한 정수 인덱스를 가지며, 해당 단어의 등장 횟수를 해당 인덱스의 값으로 가진다.
Bag of Words를 직역하면 단어들의 가방을 의미한다.
가방에 문장의 단어들을 넣고 흔든다면, 단어의 순서는 무의미해진다.
단어의 순서는 무시하고, 오직 단어의 빈도수에만 집중하는 방법
DTM에서 추가적으로 중요한 단어에 가중치를 주는 방식
TF-IDF 기준으로 중요한 단어는 값이 Up
TF-IDF 기준으로 중요하지 않은 단어는 값이 Down
TF-IDF는 직역하면 ‘단어 빈도-역 문서 빈도’
TF-IDF는 TF와 IDF라는 두 값을 곱한 결과이다.
문서의 유사도, 검색 시스템에서 검색 결과의 순위 등을 구하는 일에 쓰인다.
벡터이므로 인공 신경망의 입력으로도 사용할 수 있다.