Background

TF: Term frequency

DF: Document Frequency

TF-IDF

문서에 등장한 단어들의 중요도를 나타내는 값

단어마다 TF-IDF 값이 계산된다.

IR에서 가장 핵심적인 가중치 공식

$$ \tt W_{t,d}=(1+log_{10}tf_{t,d}) \times log_{10}(N/df_t) $$

term의 tf-idf 가중치는 tf 가중치와 idf 가중치의 곱이다.

tf.idftf x idf라고 부르기도 한다.

가중치는 collection에서 term의 발생빈도에 따라 증가한다.

가중치는 컬렉션 내에 term이 희귀할수록 증가한다.

쿼리에 대한 문서의 Score 계산

$$ \tt Score(q,d)=∑_{t∈q∩d}tf.idf_{t,d} $$

위 수식은 q(query)와 d(document)에서 공통되는 term을 가진 document의 score만 계산한다는 의미이다.

문서들의 Score을 계산할 때 다양한 옵션이 존재한다.

  1. tf를 계산하는 방법

  2. 쿼리를 구성하는 term에 가중치 부여 여부

    가중치 부여 없이, query도 하나의 document처럼 처리하는 방법도 있다.

    query는 document의 한 종류다.

문서를 나타내는 방법

TF-IDF의 다양한 선택지

ex — lnc.ltc