Attention network를 만들어서 이미지에서 뽑아낸 attention 영역에 해당하는 pixel은 generator에서 생성된 이미지를 쓰고, 그 외 pixel을 원래 이미지를 쓴다.
Cycle을 통해서 attention 영역이 더 sharp해진다.
30epoch까지는 attention network도 학습을 시키지만, 그 이후에는 background까지도 attention이 되는 것을 방지하기 위해 attention network의 학습은 멈춘다.
30epoch까지는 생성된 전체 이미지(generator를 통과한 영역+background)와 원본 이미지 그 자체를 Discriminator에 넣지만, 그 이후에는 Attention 영역만으로 Discriminator가 판단한다.
(전체 영역을 본다면 discriminator는 주변 풍경으로도 참/거짓을 판단 가능할 것이다
ex)얼룩말 → 사바나, 말→초원)
Attention Network도 같이 학습이 진행된다.
Generator에서 생성되는 이미지는 attention network의 결과로 나오는 mask를 이용하여 pixel-wise로 더해진다.(foreground는 말 부분, backgorund는 배경 부분) Fig2. 참고
Discriminator는 Target domain의 원본 이미지와 위의 식을 통해 생성된 이미지에 대해 참/거짓을 판별한다.(즉, 전체 이미지에 대해 판단이 일어난다)