Summary

저자는 우선 $T$가 클 수록 $VLB$가 높아진다는 것을 증명하였다. 그 후 $SNR(t)$를 이용해 continuous-time $VLB$를 표현하고, noise schedule의 end point만이 loss에 관여하고 그 중간 과정은 관여하지 않음을 보였다. 그러나 $SNR(t)$의 shape은 $VLB$의 monte carlo estimation의 variance에 영향을 주는데, $VLB$ estimation의 variance를 줄이도록 $SNR(t)$를 학습하면 수렴 속도를 빠르게 할 수 있다는 것을 밝혔다. 또한, fourier feature를 이용해 모델이 high frequency를 더 잘 복원하도록 하여 likelihood를 크게 향상시켰다. VDM은 cifar10과 imagenet에서 sota likelihood를 달성하였다.

Forward Process

Untitled

일 때, $0\leq s < t \leq1$인 $s$와 $t$에 대해 $q(z_t|z_s)$를 유도해보자. 우선 $z_t$와 $z_s$를 reparameterization trick을 이용해 다음과 같이 표현하자.

$$ z_t=\alpha_t x + \sigma_t \epsilon_t\\ z_s=\alpha_s x + \sigma_s \epsilon_s $$

$\epsilon_s,\epsilon_t \sim N(0,I)$이다. $z_s$가 given일 때 $z_t$를 $az_s+b\epsilon$의 꼴로 나타내야 $q(z_t|z_s)$를 구할 수 있으므로, 위 식에 양변에 곱을 해서

$$ \frac{\alpha_t}{\alpha_s}z_s=\alpha_t x + \frac{\alpha_t}{\alpha_s}\sigma_s\epsilon_s $$

를 만들자. 이제 이 식에 $z_t$를 등장시키자.

$$ \frac{\alpha_t}{\alpha_s}z_s=z_t - \sigma_t \epsilon_t + \frac{\alpha_t}{\alpha_s}\sigma_s\epsilon_s $$

이항하면,

$$ z_t=\frac{\alpha_t}{\alpha_s}z_s + \sigma_t\epsilon_t-\frac{\alpha_t}{\alpha_s}\sigma_s\epsilon_s $$

두 gaussian random variable의 차이는 어떤 분포인가? (1)

두 gaussian RV의 합을 하나의 gaussian RV로 표현하면 $z_t$는 다음과 같이 나타난다.

$$ z_t=\frac{\alpha_t}{\alpha_s}z_s +\sqrt{ \sigma_t^2+\frac{\alpha_t^2}{\alpha_s^2}\sigma_s^2}\epsilon $$

여기서 $\alpha_{t/s}=\frac{\alpha_t}{\alpha_s}$으로 두면 $q(z_t|z_s) = N(\alpha_{t/s}z_s, (\sigma_t^2+\alpha_{t/s}^2\sigma_t^2)I)$임을 유도할 수 있다.

Untitled

근데 논문과 variance 안에 부호가 다르다...

DDPM과 마찬가지로 forward process posterior는 다음과 같이 bayes’ rule로 구하며, 역시 gaussian이다.