https://www.youtube.com/watch?v=1j0W_lu55nc
Denoising Diffusion Probabilistic Models

diffusion process $q(X_t|X_{t-1})$ 은 사전에 정의한 노이즈가 계속해서 추가되는 과정으로 학습이 필요하지 않다.
그 역 과정인 reverse process $q(X_{t-1}|X_t)$ 는 $q(X_t|X_{t-1})$ 를 안다고 해서 구할 수는 없지만 diffusion process가 gaussian distribution을 따른다면, reverse process도 gaussian distribution을 따른다는 것은 알 수 있다. reverse process는 학습을 통해 알아낼 것인데, 이를 $p_\theta(X_{t-1}|X_t)$로 근사하여 학습함. 또한 2개의 각 process내 변화과정은 Markov Chain의 매우 많은 단계로 쪼개어 구성되어 각 단계에서는 “large number of small perturbations”를 추정하는 것과 같다.

gaussian noise를 점진적으로 주입하는 과정(=conditional gaussian distribution)으로 주입하는 gaussian noise의 크기는 사전에 정의(scheduling)하며 각 단계의 noise는 $\beta_t$로 표현함.

위의 식은 reparameterization trick에 의해 아래와 같이 표현된다. (:=는 정의를 뜻함)
$$ q(X_t|X_{t-1})\\:=N(X_t;\mu_{X_{t-1}},\Sigma_{X_{t-1}})\\:=N(X_t;\sqrt{1-\beta_t}X_{t-1}, \beta_t\cdot I)\\=\sqrt{1-\beta}X_{t-1} + \sqrt{B_t}\,\epsilon_{t-1} $$
$$ q(X_t|X_{t-1}):=\sqrt{1-\beta}X_{t-1} + \sqrt{\beta_t}\,\epsilon_{t-1} $$
$$ x^{(t)}=\sqrt{\bar\alpha_t}x^{(0)}+\sqrt{1-\bar\alpha_t}\epsilon $$
또한 초기 입력 ($X_0$)을 제외한 나머지($X_1, X_2, ,,, X_T$)를 latent variable로 상정하며 가장 마지막 latent variable($X_T$)는 pure isotropic gaussian으로 생각 가능.
$$ q(x^{(t)}|x^{(t-1)})=\mathcal{N}(x^{(t)};\sqrt{1-\beta_t}x^{(t-1)},\beta_t I) $$