요약하면, Document frequency가 작은 단어일수록 유용하고, term frequency가 큰 단어일수록 문서를 특정짓는데 유용하다.

효과적인 검색을 위해 document frequency($df$)에 대한 정보도 활용해야 한다.


term frequency가 높은 단어들에게 높은 가중치를 부여해야 한다.

document frecuency가 낮은 단어들에게 높은 가중치를 부여해야 한다.

IDF: Inverse Document Frequency

$$ \tt idf_t=log_{10}(N/df_t) $$

df가 작은 term의 점수를 더 높게 주기 위해 df를 뒤집어서 분모로 사용한다.

idf값을 완화시키기 위해 log를 취해준다.

log의 base가 꼭 10일 필요는 없다.