Decoder의 입력은 “object query”라는 학습 가능한 벡터들이다.

한 이미지 안에서 최대 N개의 물체를 찾고 싶다고 하자.

여기서 그 “물체 담당 슬롯 하나”에 해당하는 것이

바로 하나의 object query이다.

Decoder는 크게 두 단계의 attention을 사용한다.

  1. Self-attention (Query들끼리)

  2. Encoder–Decoder attention (Query ↔ Encoder 출력)

그 후 각 query의 최종 출력 벡터를 FFN에 넣어