문서에 등장한 단어들의 중요도를 나타내는 값
단어마다 TF-IDF 값이 계산된다.
IR에서 가장 핵심적인 가중치 공식
$$ \tt W_{t,d}=(1+log_{10}tf_{t,d}) \times log_{10}(N/df_t) $$
term의 tf-idf 가중치는 tf 가중치와 idf 가중치의 곱이다.
tf.idf나 tf x idf라고 부르기도 한다.
가중치는 collection에서 term의 발생빈도에 따라 증가한다.
가중치는 컬렉션 내에 term이 희귀할수록 증가한다.
$$ \tt Score(q,d)=∑_{t∈q∩d}tf.idf_{t,d} $$
위 수식은 q(query)와 d(document)에서 공통되는 term을 가진 document의 score만 계산한다는 의미이다.
문서들의 Score을 계산할 때 다양한 옵션이 존재한다.
tf를 계산하는 방법
쿼리를 구성하는 term에 가중치 부여 여부
가중치 부여 없이, query도 하나의 document처럼 처리하는 방법도 있다.
query는 document의 한 종류다.