Abstract


Conv Nets의 깊이를 깊게하여 large-scale imgae recognition의 acc을 향상시키는 연구를 하였습니다. 아주 작은 3x3 filter를 사용하여 모델의 깊이를 16~19 layer정도까지 설계하였습니다.

이 nets으로 ImageNet Challenge 2014 localisation and classification tracks 에서 각각 1등과 2등을 하였습니다. 또한 다른 dataset에서도 적용할 수 있다는 것을 보였습니다.

Introduction


Conv Nets은 ImageNet같은 대량의 dataset과, GPU같은 컴퓨팅파워의 향상으로 많이 사용되고 있습니다.

AlexNet 이후로 Conv Nets을 이용하여 nets의 성능을 향상시키려는 다양한 시도가 있었습니다. 논문에서는 ConvNet architecture의 depth에 초점을 두었습니다. 3x3의 아주 작은 conv filter를 사용하여 depth가 깊어지는 것을 가능하도록 하였습니다.

그 결과, ILSVRC classification and localisation tasks에서 SOTA accuracy를 보였고, 다른 이미지 인식 dataset에서도 좋은 성능을 보였습니다.

Convnet Configurations


Architecture

학습할 때 input은 224x224x3 이고, 전처리는 train set의 각 픽셀에 대해 mean RGB value를 빼주었습니다.

그리고 이미지는 conv layer들을 통과하는데 이때 3x3의 아주 작은 filter를 사용했습니다. 1x1 conv filter도 input channel의 linear tranformation으로 볼 수 있습니다.(followed by non-linearity) stride는 1로 고정합니다. 특정 conv layer 이후에 5번의 max pooling((2,2), stride=2)을 합니다.

conv layer들을 모두 통과한 후 3개의 FC layer를 통과합니다.(channel : 4096, 4096, 1000) 마지막 layer는 softmax입니다.