Paper

Introduction
- 기존 VQ-VAE의 BigGAN 버전 (Multi-scale hierarchical organization of VQ-VAE)
- GAN과 달리 mode collapse나 diversity 부족 현상을 겪지 않음.
- Self-attention mechanism over auto-regressive model
Structure
Stage 1: VQ-VAE training
- Discrete latent space에 이미지를 encoding 하는 과정
- Local/Global 정보가 분리되어 있는 Hierarchical 구조 → Local 정보(i.e., texture)를 Global 정보(i.e., shape)로부터 분리시키기 위함 → High resolution 구현을 위한 방법
- Global info: Top level(latent) Local info: Bottom level(latent)
- Bottom latent는 Top latent에 condition되어 있다. (이 뜻을 이해 하지 못하는중이다) → 논문에서는 condition되어 있지 않다면 top latent가 모든 픽셀을 encode해야 한다고.. (We note if we did not condition the bottom latent on the top latnet, then the top latent would need to encode every detail from the pixels. We therefore allow each level in the hierarchy to separately depend on pixels, which encourages encoding complementary information in each latent map that can contribute to reducing the reconstruction error in the decoder.)
- Decoder는 두 개의 Latent map으로부터 이미지를 reconstruct한다.
- Quantization 과정은 VQ-VAE와 동일
