간단 요약
Cross Entropy - Entropy
두 분포의 차이, 정보량을 의미한다.
metric이 아니다.
엔트로피의 상대성에 대해 이야기한다.
유도 과정
$$ \begin{aligned}H(p, q) & =-\sum_i p_i \log q_i \\& =-\sum_i p_i \log q_i-\sum_i p_i \log p_i+\sum_i p_i \log p_i \\& =H(p)+\sum_i p_i \log p_i-\sum_i p_i \log q_i \\& =H(p)+\sum_i p_i \log \frac{p_i}{q_i}\end{aligned} $$
이 때, $H(p,q) - H(p)$로 정리되는 다음 수식을 KL-Divergence 혹은 Relative Entropy라고 부른다.
$$ \sum_i p_i \log \frac{p_i}{q_i}=H(p, q)-H(p) $$
$$ KL(p|q) = \sum_xp_i\log{p_i\over q_i} = E_p[\log{\left({p_i\over q_i}\right)}] $$
두 분포 간의 차이를 측정한다.
$P(X)$를 기준으로 두 분포의 차이를 의미한다.
Metric이 아니다.
$K L(p \mid q) \geq 0$을 만족한다.
모든 x에 대해 $Q(X) =0\rightarrow P(X) =0$가 성립한다.
Symmetry가 성립하지 않는다.
$K L(p \mid q) \neq K L(q \mid p)$
Triangle inequality를 만족하지 않는다.
연속 변수의 KL 발산은 Entropy와 마찬가지로 합을 적분으로 대체하여 정의할 수 있다.
초보를 위한 정보이론 안내서 - KL divergence 쉽게 보기
연관 개념? 알아보기
elbo, variational inference
MLE