희귀한 term은 흔한 term 대비 더 유용하다.
stop word와 같은 것들은 문서를 구별짓는데 도움이 되지 않는다.
arachnocentric이 문서를 구별짓는데 훨씬 많은 도움이 된다.
이렇게 희귀한 term을 포함한 문서는 쿼리 term에 매우 연관도가 높을 것이다.
희귀한 arachnocentric같은 term에 가중치를 부여해야 한다.
요약하면, Document frequency가 작은 단어일수록 유용하고, term frequency가 큰 단어일수록 문서를 특정짓는데 유용하다.
효과적인 검색을 위해 document frequency($df$)에 대한 정보도 활용해야 한다.
모든 document에서 나타나는 term들은 문서를 검색하는데 도움이 크게 되지 않는다.
컬렉션 내에서 흔한 term을 생각해보자. (ex: high, increase, line)
물론 이러한 term을 포함하는 문서가 그러지 않은 문서보다는 연관있을 가능성이 높다.
하지만 확실한 연관도의 척도가 될 수는 없다.
term frequency가 높은 단어들에게 높은 가중치를 부여해야 한다.
document frecuency가 낮은 단어들에게 높은 가중치를 부여해야 한다.
$$ \tt idf_t=log_{10}(N/df_t) $$
df가 작은 term의 점수를 더 높게 주기 위해 df를 뒤집어서 분모로 사용한다.
idf값을 완화시키기 위해 log를 취해준다.
log의 base가 꼭 10일 필요는 없다.
ex) N = 1 million
idf는 one term 쿼리에 있어서는 랭킹에 변화가 없다.
어차피 가중치를 구할 때 모든 document에 항상 같은 값이 곱해지게 된다.
idf는 적어도 2개의 term 이상에 대해 효과가 있다.
“capricious person”라는 쿼리가 있으면 idf 가중치는 capricious 라는 희귀한 단어에 person 이라는 흔한 단어 보다 상대적으로 높은 가중치를 부여하게 된다.
ex) query : iphone box
CF vs. DF