DF: Document Frequency

희귀한 term은 흔한 term 대비 더 유용하다.

stop word와 같은 것들은 문서를 구별짓는데 도움이 되지 않는다.

arachnocentric이 문서를 구별짓는데 훨씬 많은 도움이 된다.
이렇게 희귀한 term을 포함한 문서는 쿼리 term에 매우 연관도가 높을 것이다.

희귀한 arachnocentric같은 term에 가중치를 부여해야 한다.

요약하면, Document frequency가 작은 단어일수록 유용하고, term frequency가 큰 단어일수록 문서를 특정짓는데 유용하다.

효과적인 검색을 위해 document frequency($df$)에 대한 정보도 활용해야 한다.

모든 document에서 나타나는 term들은 문서를 검색하는데 도움이 크게 되지 않는다.
컬렉션 내에서 흔한 term을 생각해보자. (ex: high, increase, line)

물론 이러한 term을 포함하는 문서가 그러지 않은 문서보다는 연관있을 가능성이 높다.

하지만 확실한 연관도의 척도가 될 수는 없다.

term frequency가 높은 단어들에게 높은 가중치를 부여해야 한다.

document frecuency가 낮은 단어들에게 높은 가중치를 부여해야 한다.

$$ \tt idf_t=log_{10}(N/df_t) $$

df가 작은 term의 점수를 더 높게 주기 위해 df를 뒤집어서 분모로 사용한다.

idf값을 완화시키기 위해 log를 취해준다.

log의 base가 꼭 10일 필요는 없다.