Object detection은 image에서 object의 bounding box(존재하는 영역) 및 label(종류)을 함께 예측하는 Set prediction problem이다.
기존의 Object Detection Model(Faster R-CNN, YOLO 등)은 Large proposal set(anchors, window center, region proposals)를 이용하여 아래와 같은 단점이 있었다.(Indirect set problem)
최초 예측에 무척 종속적인 예측을 하게되어 사전에 미리 설정한(hand-crafted) 요소들(anchor, nms 등)에 크게 영향을 받는다.

near-duplicate prediction이 다수 존재하여 후처리가 필수불가결하며, 예측과 ground truth를 unique하게 매칭하기 어렵다.

저자들은 hand-crafted components를 제거하고 End-to-end를 적용시켜 Direct set problem으로 개선시키고자 했다.

Bipartite matching과 Hurgarian algorithm을 Loss에 적용시킨 Transformer를 제안하여 물체 탐지를 End-to-End로 변형시켰다.(Direct set problem)

이러한 접근은 이전보다 간단한 구조를 가지면서도 기존의 모델들과 비슷한 성능을 보여주었다.
Hand-Designed component
Set prediction problem
Bipartite matching
Hurgarian algorithm
Seq2Seq
이전까지의 모델은 Set(bounding box, label)을 image로 부터 바로 예측하는 것이 아닌, 여러개의 proposals 중 가장 적절한 것을 찾아내는 방식이었다.