
이 논문에서는 간단하고 확장가능한 dection algorithm을 제안합니다. 이 algorithm은 이전의 best 방법보다 30% 더 높게 mAP(mean average precision)을 향상시켰습니다.
mAP(mean average precision)
IoU(Intersection over Union)를 기준으로 TP(True Positive. true를 ture라고 판별)와 FP(False Positive. false를 true라고 판별)를 계산하여, Precision-recall 그래프를 그립니다.
Precision : ${TP \over TP+FP}={TP\over all\ detections}$ 모든 detection 중 제대로 detection 한 비율
Recall : ${TP\over TP+FN}={TP\over all\ ground\ truth}$ 모든 detection 해야하는 object 중 제대로 detection 한 비율
AP : Precision-recall 그래프에서 그래프 선 아래쪽의 면적
mAP : 각 클래스당 AP를 구하고 그것을 합하여 클래스의 수로 나누어준 값
논문에서 제안하는 방식에는 2가지 key insights가 있습니다.
localize와 segment object를 위해 region proposal에 CNN을 적용
labeled data가 부족할 때, supervised pre-training 과 domain-specific fine-tuning을 합니다.
논문에서 제안하는 이 방식은 region proposal과 CNN을 같이 이용하기 때문에 R-CNN이라고 부르기로 하였습니다.
이전에는 다양한 visual recognition task들에 SIFT와 HOG에 기반한 방식들을 사용했습니다. 이 논문에서는 CNN을 활용하여 object detection의 성능을 HOG 기반의 방법과 비교하여 급격하게 향상할 수 있음을 보여줍니다.
이러한 결과를 얻기 위해서 2가지 문제에 집중하였습니다.
deep network를 이용한 localizing object
적은 양의 detection data를 이용하여 high-capacity model을 train하는 것