그림의 왼쪽에서 오른쪽으로 흐름을 단계별로 정리하면 다음과 같습니다.

  1. 입력 이미지
  2. CNN Backbone
  3. Positional Encoding
  4. Transformer Encoder
  5. Object Queries 입력 → Transformer Decoder
  6. Decoder 내부 동작
  7. Prediction Heads
  8. 학습 시