이 논문은 무엇을 제안했나요?

그림의 왼쪽에서 오른쪽으로 흐름을 단계별로 정리하면 다음과 같습니다.

입력 이미지
- 원본 RGB 이미지를 CNN backbone에 넣는다.
CNN Backbone
- 여러 층의 convolution과 pooling을 거쳐 H×W 크기의 feature map을 얻는다.
- 이 feature map은 “어디에 어떤 시각적 패턴이 있는지” 요약한 저해상도 지도이다.
Positional Encoding
- feature map의 각 위치가 “이미지에서 어디인지” 알 수 있도록,
- (x, y) 위치 정보를 sine/cosine 또는 learned positional embedding 형태로 더한다.
Transformer Encoder
- H×W개의 feature를 시퀀스로 보고 self-attention을 여러 층 적용한다.
- 모든 위치가 서로를 참조하면서, 같은 객체에 속한 위치끼리는 표현이 비슷해지도록 조정된다.
- 최종적으로 “전역 문맥이 반영된 image feature sequence”가 생성된다.
Object Queries 입력 → Transformer Decoder
- N개의 learned object query 벡터를 디코더의 입력으로 넣는다.
- 각 query는 “잠재적인 하나의 객체 슬롯”을 의미한다.
Decoder 내부 동작
- Self-attention: N개의 query가 서로 상호작용하면서 “누가 어떤 객체를 담당할지” 역할을 나눈다.
- Encoder–Decoder attention: 각 query가 encoder 출력 전체를 대상으로 attention을 수행해,
  
  자신이 담당할 객체의 위치에서 feature를 많이 모은다.
- 이를 여러 층 반복하면서 각 query는 점점 “특정 객체에 특화된 표현”으로 변한다.
Prediction Heads
- 각 query 출력에 대해
  - 하나의 FFN: bounding box (cx, cy, w, h)를 예측
  - 또 다른 FFN(마지막은 linear): 클래스 확률(K+1, no-object 포함)을 예측
- 따라서 N개의 query → N개의 (클래스, 박스) 예측 결과가 나온다.
학습 시
- 이 N개의 예측과 정답 박스 집합을 bipartite matching으로 1:1로 연결하고,
- 연결된 쌍에 대해 분류 loss + 박스 loss(L1 + GIoU)를 계산하여 역전파한다.