Síntese de Imagens

Intro

Neste capítulo propusemos o uso de arquiteturas de GANs condicionais, como a da Pix2Pix, para se criar um gerador que aprenda a reconstruir a mesma imagem que recebeu como entrada e simultaneamente gerar um vetor latente que permita a manipulação da síntese. Nossa contribuição é um estudo de diversas abordagens com diferentes configurações da rede, e como cada elemento influencia no resultado final da imagem reconstruída. Alguns exemplos de imagens geradas pelos melhores experimentos estão presentes no Apêndice A.

Metodologia

Nosso ponto de partida é a arquitetura Pix2Pix, mas com a intenção de entender o impacto de cada elemento na síntese da imagem final, realizamos alterações tanto nas configurações quanto na própria arquitetura da rede.

Inicialmente, utilizamos o gerador U-Net, já empregado originalmente na Pix2Pix, como um autoencoder para reconstruir a imagem que é apresentada ao gerador. Essa arquitetura gera um vetor latente, o qual avaliamos se pode ser usado para manipular a síntese das imagens.

Em seguida, substituímos o gerador U-Net pelo gerador residual da CycleGAN. Como o gerador residual não cria vetores latentes na sua estrutura, nós propusemos três adaptações desse gerador original que passam por uma etapa de criação do vetor entre o encoder e o decoder. Chamamos essas três adaptações de residual adaptado, full residual e simple decoder e explicamos sua arquitetura.

Com o gerador residual original e suas adaptações, realizamos diversos experimentos alterando configurações da rede ou até seus elementos, como geradores e discriminadores, com o objetivo de criar imagens sintéticas realistas, e como consequência medir a capacidade dos vetores latentes, comparando os resultados de cada abordagem.

Todas as redes serão treinadas como autoencoders, o que significa que a mesma imagem é apresentada à rede como entrada e como objetivo. Isso incentiva a rede a recriar a imagem da entrada de forma que o encoder realize uma compressão da informação e o decoder a descompressão para criar a imagem final mais próxima possível do objetivo.

Intro

Metodologia

Github

Weights and Biases

Experimentos finais

Estudos realizados antes da qualificação

Registros dos experimentos