2 - Selecionando as imagens de carro e retreinando a Pix2Pix

Objetivo

Entender se a performance da Pix2Pix melhora ao fazer duas alterações: a primeira consiste em subir o limiar inferior do detector de bordas de Canny para 0,666..., no intuito de remover linhas auxiliares excessivas e obter uma imagem mais limpa com apenas os contornos mais marcantes; a segunda alteração é no dataset, selecionando-se apenas imagens com o contexto completo do carro, ignorando imagens incompletas, como painéis, interiores, volantes, lanternas e outros elementos.

Método

Preparação do dataset

600 exemplos de imagens de carro com contexto (imagem à esquerda = "car") e outros 600 exemplos de imagens de carro sem contexto (imagem à direita = "notcar") foram selecionados manualmente para criar um dataset de exemplos de imagens de carro x não-carro:

As imagens foram separadas em duas pastas correspondendo às classes "car" e "notcar". Em seguida um classificador binário de imagens foi criado a partir da arquitetura a seguir. Ele foi treinado por 50 épocas com batches de 5 imagens para aprender a classificar corretamente as 1200 imagens.

As camadas MaxPooling foram usadas para reduzir rapidamente as dimensões das imagens, e conseguir um treinamento mais rápido sem prejudicar acurácia [1], as camadas de BatchNormalization reduzem a variância interna e ajudam na convergência da rede [2]. As camadas de convolução bidimensionais (Conv2D) aprendem a reconhecer as características das imagens e em seguida as camadas MLP completamente conectadas (Dense) realizam a classificação entre car (0) e notcar (1). A ativação das camadas de convolução e MLP foi ReLU, para inserir não-linearidades na rede, exceto a última camada que usou uma ativação sigmóide para manter a saída entre 0 e 1. Foi usado um limiar de 0,5 para considerar se a imagem era car ou notcar.

O otimizador utilizado foi um ADAM, com taxa de aprendizado de 0.0002, e a loss utilizada foi Binary Cross-Entropy, por se tratar de um classificador binário.

Treinamento da GAN

Em seguida as 64,6k imagens do dataset original passaram pelo classificador e as que foram classificadas como car foram salvas em uma pasta para a composição do dataset. Essas imagens resultantes passaram pelo mesmo criador de database do Estudo 1, com a alteração no limiar inferior do detector de bordas de Canny para 200/3.

Assim como no Estudo 1, a GAN foi treinada a partir do dataset resultante, mas dessa vez por 22 épocas. Durante o treinamento também foram geradas imagens sintéticas do dataset de teste.

Teste de generalização

Para testar o poder de generalização da GAN, foram obtidas do Google Imagens alguns exemplos de imagens de esboços de carros de dois tipos: com e sem hachuras.

As imagens foram preparadas pelo seguinte pipeline: