- 사실 처음보는 Anchor free Detector 논문이라 궁금해서 본건데 생각보다 내용이 없다
Abstract
- Object Detection 은 매우 다양한 곳에 사용될 수 있지만 많은 딥러닝 기반 방식들이 모델이 크고 긴 Inference time 을 필요로 하기에 Effectiveness와 Efficiency 의 조율이 필요
- 이를 위해 pre-defined 된 anchor를 제거한 anchor-free 모델 사용해 두가지를 모두 잡는 모델을 만들어 보고자함
- TTFNet 이라 불리는 anchor-free 모델을 사용해 이를 서버와 모바일환경에 최적화 시킨 PAFNet (Paddle Anchor Free Network) 을 제안
- PaddlePaddle 이 뭔가 했더니 baidu 에서 만든 딥러닝 프레임워크라고 함
1. introduction
- Object Detection은 CNN 을 적용하게 되면서 성능이 향상 되었었음
- Region Proposal 과 Classification을 한번에 학습하는 One-stage 방식과
분리하여 진행하는 Two-stage 방식으로 발전해 왔는데
최근 속도에 큰 장점이 있는 One-stage 모델이 성능까지 좋아지며 이 방식이 주류를 이루고 있음
- 하지만 One-stage 모델의 경우 사전에 정의된 고정된 앵커가 존재하는데
이 매우 많은양의 앵커가 야기하는 일반화 성능의 손실이 크고 연산량도 매우 증가됨
- 이것을 제거하고 직접 위치를 Regression 하는 모델을 anchor-free 모델이라 부름
- 여기에 설명이 너무 다 나와서 뒤는 짜름
2. Related Work
-
Anchor Based model
- 오랫동안 주류로 사용되어온 방식으로 사전 정의된 앵커를 사용
- 1-Stage : YOLO, SSD, RetinaNet
- 2-stage : R-cnn
-
Anchor-free model
-
CenterNet

- 빠른 Inference 를 위해 Detector가 bonding box의 중앙만을 예측하게 하고
그외에 다른 속성(너비, 높이, 포즈 등) 은 해당 이미지에서 직접 연산하게 하는 방식
- 네트워크에서 히트맵같은 것을 생성하고 히트맵의 피크가 객체의 센터를 의미
- 이것은 많은 후처리절차 (NMS 등) 을 제거하게 함으로 inference time을 감소시키는데 매우 큰 역할을 함
- 하지만 Regression에서 중앙에만 집중하게 되어 네트워크 수렴이 느려지는 경향이 있음
- 일반적으로 MS-COCO를 학습하는데 12epoch 정도가 필요하나
CenterNet은 140 epoch 정도 필요하다고 함
-
TTFNet
- CenterNet을 개선하여 더 좋은 밸런스를 갖춘 모델
- 학습시간을 감소시키기 위해 Gaussian kernel 을 사용하여 훈련 샘플을 인코딩
- 중심만이 아닌 주변까지 샘플로 사용할 수 있게 함
- 더 많은 샘플을 사용해 빠르게 수렴할수 있게 해줌
- Training, Inference 시간과 Accuracy 에 균형있는 모습을 보임
3. Method