Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Abstract

논문에서는 전체 image의 convolutional feature를 detection network와 공유하는 RPN(Region Proposal Network)을 제안합니다. RPN은 object bound와 objectness score를 동시에 예측하는 fully convolutional network 입니다. RPN은 high quality region propsal을 생성하도록 train되고 Fast R-CNN의 detection을 위해서 사용됩니다.

논문에서는 RPN과 Fast R-CNN의 convolutional feature를 sharing하여 하나의 network로 합치는 방법을 제안합니다. RPN component는 network가 어느 부분을 보고 있는지 알려줍니다.

Introduction

region proposal, region-based CNN에 의해서 object detection에서 발전이 있었습니다. region-based CNN은 연산량이 많지만, sharing을 통해서 줄일수 있었습니다.

그렇지만, region propsal step은 여전히 detection network에서 많은 시간을 필요로 합니다. fast region-based CNN은 GPU의 이점을 가져가진면 region proposal method는 CPU에서 구현됩니다. 연산 속도를 향상시키기 위해서 GPU에 맞게 다시 구현할 수 도 있지만, 이렇게 하면 sharing computatioin을 놓칠 수 있습니다.

논문에서는 object detection network와 convolutional layer를 공유하는 RPN(Region Proposal Network)을 제안합니다. 추가적인 convolutional layer를 이용하여 RPN을 구축하고 region bound와 objectness score를 동시에 regression합니다. RPN은 fully convolutional network이고 detection proposal을 생성하도록 train 됩니다.

RPN은 넓은 범위의 scale과 aspect ratio를 이용하여 효율적으로 region proposal을 예측합니다.

널리 알려진 방법들(Figure 1 (a), (b))과는 다르게, 논문에서는 anchor box(Figure 1 (c))를 도입합니다. 이러한 모델은 single-scale images에서 잘 작동하고 running speed에 이점이 있습니다.

RPN을 Fast R-CNN과 통합하기 위해서 proposal이 고정된 상태로 유지되면서 region proposal에 대한 fine-tuning과 object detection에 대한 fine-tuning을 번갈아 가며 수행하는 training 구조를 제안합니다.