저자는 우선 $T$가 클 수록 $VLB$가 높아진다는 것을 증명하였다. 그 후 $SNR(t)$를 이용해 continuous-time $VLB$를 표현하고, noise schedule의 end point만이 loss에 관여하고 그 중간 과정은 관여하지 않음을 보였다. 그러나 $SNR(t)$의 shape은 $VLB$의 monte carlo estimation의 variance에 영향을 주는데, $VLB$ estimation의 variance를 줄이도록 $SNR(t)$를 학습하면 수렴 속도를 빠르게 할 수 있다는 것을 밝혔다. 또한, fourier feature를 이용해 모델이 high frequency를 더 잘 복원하도록 하여 likelihood를 크게 향상시켰다. VDM은 cifar10과 imagenet에서 sota likelihood를 달성하였다.
일 때, $0\leq s < t \leq1$인 $s$와 $t$에 대해 $q(z_t|z_s)$를 유도해보자. 우선 $z_t$와 $z_s$를 reparameterization trick을 이용해 다음과 같이 표현하자.
$$ z_t=\alpha_t x + \sigma_t \epsilon_t\\ z_s=\alpha_s x + \sigma_s \epsilon_s $$
$\epsilon_s,\epsilon_t \sim N(0,I)$이다. $z_s$가 given일 때 $z_t$를 $az_s+b\epsilon$의 꼴로 나타내야 $q(z_t|z_s)$를 구할 수 있으므로, 위 식에 양변에 곱을 해서
$$ \frac{\alpha_t}{\alpha_s}z_s=\alpha_t x + \frac{\alpha_t}{\alpha_s}\sigma_s\epsilon_s $$
를 만들자. 이제 이 식에 $z_t$를 등장시키자.
$$ \frac{\alpha_t}{\alpha_s}z_s=z_t - \sigma_t \epsilon_t + \frac{\alpha_t}{\alpha_s}\sigma_s\epsilon_s $$
이항하면,
$$ z_t=\frac{\alpha_t}{\alpha_s}z_s + \sigma_t\epsilon_t-\frac{\alpha_t}{\alpha_s}\sigma_s\epsilon_s $$
두 gaussian random variable의 차이는 어떤 분포인가? (1)
두 gaussian RV의 합을 하나의 gaussian RV로 표현하면 $z_t$는 다음과 같이 나타난다.
$$ z_t=\frac{\alpha_t}{\alpha_s}z_s +\sqrt{ \sigma_t^2+\frac{\alpha_t^2}{\alpha_s^2}\sigma_s^2}\epsilon $$
여기서 $\alpha_{t/s}=\frac{\alpha_t}{\alpha_s}$으로 두면 $q(z_t|z_s) = N(\alpha_{t/s}z_s, (\sigma_t^2+\alpha_{t/s}^2\sigma_t^2)I)$임을 유도할 수 있다.
근데 논문과 variance 안에 부호가 다르다...
DDPM과 마찬가지로 forward process posterior는 다음과 같이 bayes’ rule로 구하며, 역시 gaussian이다.