Link : https://arxiv.org/pdf/1909.07877.pdf
Code : https://github.com/Xiaoming-Yu/DMIT
이미지는 두개의 latent space(C, S)로 구분된다고 가정한다. C는 특정 도메인에 따라 바뀌지 않고, 이미지의 스타일도 고려되지 않은 내용물, S는 이미지의 스타일을 나타낸다.
multi-domain에 대해서 하나의 encoder-decoder로 학습하기 위해 D라는 domain label도 정의해준다. D를 이미지를 구분짓는 또 다른 요소로 가정하면 X ↔(C, S, D)의 domain transfer가 가능하다.
Encoder:
Es는 residual block과 global average pooling, fully connected layer를 통해 구성되고 global average pooling으로 이미지의 구조에 대한 정보를 지우고 style에 대한 정보만 남긴다.
Ec는 fully convolutional network를 통해 이미지를 feature map(c) 형태로 encoding하고 stride가 크지 않기때문에 이미지의 많은 정보를 가지고 있다.
Generator : residual block과 deconvolutional layer로 이루어져있고 information을 injection하기 위해 CBIN(Central Biasing Instance Normalization)을 사용했다.
f(c)는 affine tranformation이라고 하는데 왜 쓰는지 잘 모르겠음.
(아마 style gan과 같은 이유지 않을까..?)
참고 : Multi-Mapping Image-to-Image Translation with Central Biasing Normalization
Discriminator : domain마다 discriminator가 존재하는 이전의 방법과는 다르게 통합된 conditional discriminator를 사용한다. large distribution shift가 일어나면 통합된 discriminator가 학습을 잘 못하는데 이를 극복하기 위해 CBIN을 사용한다.