1 - Pix2Pix em imagens de carros

Objetivo

Testar o funcionamento da GAN Pix2Pix [3] em um dataset composto de 64,4k imagens de carros, usando como input as bordas detectadas automaticamente pelo método de Canny.

Método

A partir do dataset obtido em [1], foi criado um algoritmo baseado no detector de bordas de Canny, que preparou o dataset para uso na Pix2Pix. A preparação percorre todas as imagens do dataset, redimensionando cada uma de forma que a menor dimensão corresponda a 256 e mantendo a razão de aspecto, seguindo por um corte quadrado no centro da imagem.

As bordas da imagem resultante são detectadas com um limiar inferior de 0.5 e uma razão entre o limiar inferior e superior de 3. As imagens são colocadas lado a lado, com a original à esquerda da imagem de bordas e separadas de forma que 80% delas aleatoriamente sejam salvas na pasta de treino e os outros 20% na pasta de teste.

Com o dataset pronto, foi feita uma adaptação do código em [2] para treinar do zero uma GAN com a arquitetura da Pix2Pix no dataset de treino em 14 épocas. Antes do início de cada época foi gerada uma imagem sintética a partir de uma das imagens do dataset de teste, para validar o treino.

Resultados

A preparação do dataset foi executada em apenas alguns minutos. Cada época de treinamento da GAN levou em torno de 60 minutos para treinar em uma NVidia RTX 2070, e o resultado se mostrou adequado para boa parte dos exemplos do dataset de treino:

Ainda assim, algumas imagens ficaram muito longe de serem percebidas como imagens naturais:

Uma das hipóteses leva em conta que o dataset tem uma grande quantidade de imagens que não mostram o contexto completo do carro. São imagens como painéis, interiores, volantes, lanternas, e outros elementos relacionados a carros, mas que não são o carro em si. A rede foi treinada de forma a generalizar inclusive esses exemplos, o que prejudica a reconstrução especializada dos carros: