말라노비스 거리
ED가 관측치 사이의 실제 거리를 제공하지 못하는 다변량 통계 테스트에서 주로 사용되는 측정 지표
ED보다 적게 사용된다.
데이터 점이 분포로부터 얼마나 떨어져 있는지를 측정한다.
두 특징 사이의 공분산을 줄이려고 한다.
$MahD(x, y) = \sqrt{(x - y)^TV^{-1}(x − y)}$
$V$는 feature 간의 Variance Covariance Matrix(분산 공분산 행렬)을 의미한다.
동일한 단위로 표준화를 진행하여 단위를 무시할 수 있게 된다.
그런데 왜 많이 안쓸까?
위의 식에서 $V^{-1}$이 True값이 아닌 추정 값이기 때문이다.
역행렬에 대한 계산이 오래 걸린다.
$V$만 잘 구해져 있다면 쓰는 것도 나쁘지 않다.
다만, Binary, Categorical 변수는 제대로 반영할 수 없다는 것을 주의해야 한다.
$a = [a_1, a_2]^T, b = [b_1, b_2]^T$
$d_M(a,b) = \sqrt{(a-b)^TM(a-b)}$
[Distance] 유클리드 거리(Euclidean Distance), 마할라노비스 거리(Mahalanobis Distance)
Triangle Inequality
마할라노비스 거리는 일반적으로 삼각 부등식을 만족하지 않는다.
마할라노비스가 metric이 되기 위해서는 M이 positive definite이어야 한다.
양의 정부호 행렬 (positive definite matrix) - 공돌이의 수학정리노트 (Angelo's Math Notes)
Non-negativity 만족
Identity 만족
Symmetry 만족