End-to-End Object Detection with Transformer: https://arxiv.org/abs/2005.12872
https://github.com/facebookresearch/detr
End-to-End Object Detection with Transformers 논문 리뷰_김해찬.pdf
DETR는 “이미지 안의 모든 물체를 한 번에 집합(set) 형태로 예측하는 객체 탐지 모델”이다.
핵심 요약:
객체 탐지를 set prediction 문제로 정의하고, Transformer를 사용하여 end-to-end로 학습 가능한 최초 계열의 모델 중 하나이다.
Faster R-CNN, RetinaNet, FCOS 등 대부분의 구조는 다음 흐름을 따른다.