간단 요약

Cross Entropy - Entropy

두 분포의 차이, 정보량을 의미한다.

metric이 아니다.

엔트로피의 상대성에 대해 이야기한다.

유도 과정

$$ \begin{aligned}H(p, q) & =-\sum_i p_i \log q_i \\& =-\sum_i p_i \log q_i-\sum_i p_i \log p_i+\sum_i p_i \log p_i \\& =H(p)+\sum_i p_i \log p_i-\sum_i p_i \log q_i \\& =H(p)+\sum_i p_i \log \frac{p_i}{q_i}\end{aligned} $$

이 때, $H(p,q) - H(p)$로 정리되는 다음 수식을 KL-Divergence 혹은 Relative Entropy라고 부른다.

$$ \sum_i p_i \log \frac{p_i}{q_i}=H(p, q)-H(p) $$

$$ KL(p|q) = \sum_xp_i\log{p_i\over q_i} = E_p[\log{\left({p_i\over q_i}\right)}] $$

두 분포 간의 차이를 측정한다.

$P(X)$를 기준으로 두 분포의 차이를 의미한다.

Metric이 아니다.

연속 변수의 KL 발산은 Entropy와 마찬가지로 합을 적분으로 대체하여 정의할 수 있다.

참조

초보를 위한 정보이론 안내서 - KL divergence 쉽게 보기

연관 개념? 알아보기

elbo, variational inference

MLE