You Only Look Once: Unified, Real-Time Object Detection

0. Abstract

YOLO라는 새로운 아이디어를 제안한다. 기존의 object detection 모델과 다르다. 기존의 object detection은 여러개의 분류를 수행하는 방법이었는데, YOLO는 한번에 대응되는 영역에 bounding box를 찾는 regression problem으로 문제를 해결했다. 단일한 neural network가 바운딩박스 위치와 클래스의 확률을 전체 이미지에 대해 한번에 평가하였다. end-to-end방식이다.

우리가 제안한 구조는 매우 빠르다. 초당 45장 이미지를 처리할 수 있다. 거의 real-time에 준하다. YOLO 백본을 경량화한 fast YOLO는 성능은 조금 떨어지지만, 초당 155장을 처리할 수 있다. YOLO는 다른 state-of-the-art detection 모델에 비해 localization error는 클 수 있지만, 배경에 대한 false positive는 작다.

YOLO는 범용적인 objection을 학습할 수 있다. DPM and R-CNN에 비해 더 좋은 성능을 보여준다. 일반적인 자연이미지 및 artwork에서도 잘 동작한다.

1. Introduction

사람은 이미지를 보면 한번에 어떤 필요한 부분을 파악할 수 있다. 그리고 사람의 비주얼 시스템은 대게 빠르고 정확하다. 복잡한 tast, 예를 운전을 한다거나 이런 것을 매우 적은 주의만 기울리고 수행할 수 있다.

그래서 만약에 우리가 정확하고 빠른 object detection model를 컴퓨터에 가르쳐 줄 수 있다면 컴퓨터는 운전과 같이 복잡한 문제도 추가적인 센서 데이터 없이 사람처럼 앞을 바라보고 그걸 토대로 운전같은 복잡한 것을 컴퓨터도 할 수 있게 될 것이다.

정리 : 이렇게 빠르고 정확한 object detection model을 컴퓨터에 알려 줄 수 있으면 많은 도움이 될 것이다.

현재 탐지 시스템은 분류기(classifier) 기반으로 탐지를 수행하였다. DPM도 분류기에 기반한 모델이다. 하나의 이미지가 들어오면 여러개의 bounding box를 만들고 그것에 대해 개별 분류를 통해 이루어 지기에 속도가 오래 걸렸다.

그 당시 최신 기법은 R-CNN는 먼저 후보군 bounding box를 만들고 classifier를 통해 처리하는 형태였다.

분류후, 중복되는 바운딩 박스를 제거하였다. 파이프라인이 매우느리고 최적화하기가 어려워서 문제가 있는 모델이었다.

우리는 object detection문제를 회귀문제로 바꾸고 이미지로 부터 바운딩박스 포지션을 바로 찾아내는 형태로 만들었다. class 확률도 바로 찾아내는 형태로 만들었다. YOLO는 이미지를 한번보고 처리한다고 해서 이런이름을 붙였다.

YOLO는 figure1처럼 전반전으로 input이미지가 들어오면 resize해서 cnn 넣을 수 있는 형태로 만든다음에 cnn에서 오브젝트디텍스를 안에서 수행하도록 만들었다. 그다음 non-max suppression을 수행한다.

매우간단하다. 논문에서는 448*448 사이즈로 resize했다.

YOLO는 통합된 모델이다. 몇가지 장점이 있다.