End-to-End Object Detection with Transformer: https://arxiv.org/abs/2005.12872

https://github.com/facebookresearch/detr

End-to-End Object Detection with Transformers 논문 리뷰_김해찬.pdf

DETR 논문 리뷰 발표 참고

0. DETR

DETR는 “이미지 안의 모든 물체를 한 번에 집합(set) 형태로 예측하는 객체 탐지 모델”이다.

핵심 요약:

객체 탐지를 set prediction 문제로 정의하고, Transformer를 사용하여 end-to-end로 학습 가능한 최초 계열의 모델 중 하나이다.


1. 배경: 기존 객체 탐지의 한계

1-1. 기존 딥러닝 기반 Detector의 전형 구조

Faster R-CNN, RetinaNet, FCOS 등 대부분의 구조는 다음 흐름을 따른다.

  1. CNN backbone으로 feature map 추출
  2. Feature map 위에서