텍스트 마이닝, 자연어 처리 및 정보 검색 시스템에 널리 사용된다.
주어진 두 문서 사이의 유사성을 측정하는 데 사용될 수 있다.
$$ \begin{matrix} CosD &=& 1-\tt {Cosine\ \ Similarity}\\ &=& 1 - {x \sdot y\over ||x||\sdot ||y||} = 1 - {\sum ^r_{i=1}x_iy_i\over \sqrt{\sum^r_{i=1}x_i^2}\sqrt{\sum^r_{j=1}y_j^2}}\end{matrix}\\\text{where x and y represent two given points.} $$
dot product(벡터 내적)
두 지점은 문서에서 출현하는 단어의 빈도를 나타낸다.
CosD는 문서들이 유사한지 아닌지를 찾기 위해 적용될 수 있다.
정보 검색 또는 검색 엔진이 어떻게 작동하는지 보여준다.
ED는 짧은 문서와 큰 문서 사이에 정확한 거리를 구하기 힘들다.
문서간의 거리를 비교하는 상황에서 ED값은 매우 커진다.
$CosD$를 사용하면 크기가 아닌 방향 측면에서 두 문서 사이의 차이를 계산할 수 있다.
CosD는 Triangle inequality가 성립하지 않기 때문에, Metric이 아니다.
대신 Angular Distance는 Metric이 된다.