2025-11-25(End-to-End Object Detection with Transformer)

End-to-End Object Detection with Transformer: https://arxiv.org/abs/2005.12872

0. DETR

DETR는 “이미지 안의 모든 물체를 한 번에 집합(set) 형태로 예측하는 객체 탐지 모델”이다.

핵심 요약:

객체 탐지를 set prediction 문제로 정의하고, Transformer를 사용하여 end-to-end로 학습 가능한 최초 계열의 모델 중 하나이다.

Faster R-CNN, RetinaNet, FCOS 등 대부분의 구조는 다음 흐름을 따른다.