작성자: 민규식
공식 구현: https://github.com/yaxingwang/SDIT
Paper

Introduction
- Image-to-Image translation은 이미지를 현재 도메인에서 다른 도메인으로 mapping하는 모델을 만드는 것이 목적
- 본 논문에서는 two-fold goal을 이용하여 scalability와 diversity를 가지는 unsupervised image-to-image translation 모델을 학습
(Scalability: 다양한 도메인 / Diversity: 동일 도메인 내에서 다른 종류의 결과)

-
기존 기법들의 단점
- Paired image가 필요한 경우가 있음
- Latent feature disentanglement를 이용하여 non-deterministic한 output을 뽑는 연구 → Diversity는 가능, scalability가 부족
- StarGAN 같은 경우 Multi-domain 이미지 생성이 가능하지만 diverse한 결과 도출을 할 수 없음 (c)
- 여러개의 generator가 필요한 경우 (d)

-
본 논문의 기법
- Compact & general 구조를 이용하여 diversity와 scalability를 가지는 single model 제안
- Conditional Instance Normalization (CIN) layer를 Generator에 적용하여 diverse output을 도출 가능
- 모델이 domain specific feature에 집중하도록 attention 적용
-
Contribution
- Single model을 이용하여 scalability와 diversity를 모두 가지는 compact하고 effective한 framework 제안
- Multi-domain image-to-image translation을 위한 attention 기법의 효용성 입증
- Scalability와 diversity에 대한 정량적이고 정성적인 결과 도출
2. Scalable and Diverse Image Translation
2.1 Method Overview
- 본 논문에서는 4개의 인공신경망 사용: Encoder (E), Generator (G), Multilayer perceptron (M), Discriminator (D)