Abstract


이 논문에서는 간단하고 확장가능한 dection algorithm을 제안합니다. 이 algorithm은 이전의 best 방법보다 30% 더 높게 mAP(mean average precision)을 향상시켰습니다.

논문에서 제안하는 방식에는 2가지 key insights가 있습니다.

  1. localize와 segment object를 위해 region proposal에 CNN을 적용

  2. labeled data가 부족할 때, supervised pre-training 과 domain-specific fine-tuning을 합니다.

논문에서 제안하는 이 방식은 region proposal과 CNN을 같이 이용하기 때문에 R-CNN이라고 부르기로 하였습니다.

Introduction


이전에는 다양한 visual recognition task들에 SIFT와 HOG에 기반한 방식들을 사용했습니다. 이 논문에서는 CNN을 활용하여 object detection의 성능을 HOG 기반의 방법과 비교하여 급격하게 향상할 수 있음을 보여줍니다.

이러한 결과를 얻기 위해서 2가지 문제에 집중하였습니다.

  1. deep network를 이용한 localizing object

  2. 적은 양의 detection data를 이용하여 high-capacity model을 train하는 것