트랜스포머는 DETR에서 크게 두 부분에 사용된다.

  1. Encoder: 이미지 전체 문맥을 보는 역할
  2. Decoder: object query들이 “이 이미지에서 내가 맡을 물체를 찾는” 역할

그 원리의 중심은 “Self-Attention(자기-어텐션)”이다.