1. Introduction

cross-domain image-to-image translation을 하는데 있어서 mulimodal하게 만드는 것이 목표.

기존의 연구들은 deterministic or unimodal mapping을 가정하여 다양한 결과를 얻지 못한다.

noise를 넣어 stochastic하게 만든 일부 연구들도 네트워크가 학습 중에 이를 무시하게 된다.

이를 보완할 수 있는 MUNIT 구조 개발!

Assumptions

  1. latent를 content space와 style space로 decompose 할 수 있다
  2. 서로 다른 domain들은 공통의 content space를 공유한다.
  3. Generator들은 각각 inverse 역할을 하는 Encoder들이 존재한다.

UNIT은 모든 latent space를 공유하지만 MUNIT은 latent space를 content, style space로 나누어 content space만 공유한다.

2. Structure

content latent - translation 과정에서 보존되어야 할 정보들

style content - translation 과정에서 변화할 수 있는 것들

Reconstruction - 기존 domain의 content와 style을 가지고 generate한다.

Cross-domain translation - 기존 domain의 content와 target domain의 random style를 가지고 generate하여 다양한 이미지들을 생성한다.