
논문에서는 ILSVRC14에서 좋은 성능을 보인 CNN architecture인 Inception을 제안합니다. 이 architecture의 주요한 특징은 network안에서 컴퓨팅 자원의 활용을 향상시켰는 것입니다. 이것은 계산비용은 유지하면서 network의 depth 와 width를 증가시키기 위해서 세심하게 설계되어 얻은 성과입니다. ILSVRC14에 제출한 모델은 GoogLeNet(22 layer network)입니다.
CNN과 같은 deep learning의 발전 덕분에 image recognition과 object detection 의 성능은 급격하게 발전했습니다. 좋은 소식은 대부분의 발전이 더 좋은 hardware, 거대한 datasets 그리고 더 큰 모델 뿐만 아니라 향상된 network architecture에 대한 새로운 아이디어 알고리즘 덕분이라는 것입니다. GoogLeNet은 AlexNet보다 12배 적은 parameter를 사용하지만 더 성능이 좋습니다.
또다른 주목할만 것은 mobile, embedded 환경에 대한 지속적인 관심으로 알고리즘의 성능과 메모리 사용같은 효율성이 중요하다는 것입니다. 이 논문에서 제안하는 architecture의 설계는 단순히 accuracy에 초점을 맞추기 보다는 이러한 점을 고려하기 있다는 점이 주목할 만한 부분입니다. 대부분의 실험에서 모델은 계산 비용은 1.5 billion mult-add를 유지하도록 설계하였습니다. 그래서 단순히 학문적 호기심에 그치는 것이 아니라, 실제 환경에서 더 큰 datasets을 이용하여 합리적인 비용으로 사용할 수 있도록 합니다.
논문에서는 computer vision을 위한 효율적인 architecture를 제안하고 inception이라고 지칭합니다. 이 이름은 Network in network 논문과 영화 inception의 "we need to go deeper"라는 밈에서 가져왔습니다. deep이라는 단어는 2가지 다른 의미로 사용됩니다.
이 architecture의 이점은 ILSVRC 2014 classification and detection challenge에서 입증했고, state of the art를 뛰어넘었습니다.
network의 성능을 향상시키는 대부분의 방법은 사이즈를 늘리는 것입니다. 이것은 depth나 width를 늘리는 것입니다. 이 방법은 거대한 data가 있는 경우 안전하고 쉬운 방법이지만 2가지 단점이 있습니다.
사이즈가 크다는 것은 parameter의 수가 많다는 것이고 network를 커지게 해서 overfitting이 일어날 수 있습니다. 특히, 데이터가 제한되어 있는 경우 그렇습니다. Figure 1에서 보여주는 것처럼 세분화된 분류를 위한 전문가가 필요한 경우, high quality data를 만드는 것의 수고와 비용은 bottleneck입니다.

network의 사이즈가 증가하면 컴퓨팅 자원 사용의 급격하게 증가하게 됩니다.