그림의 왼쪽에서 오른쪽으로 흐름을 단계별로 정리하면 다음과 같습니다.
Self-attention: N개의 query가 서로 상호작용하면서 “누가 어떤 객체를 담당할지” 역할을 나눈다.
Encoder–Decoder attention: 각 query가 encoder 출력 전체를 대상으로 attention을 수행해,
자신이 담당할 객체의 위치에서 feature를 많이 모은다.
이를 여러 층 반복하면서 각 query는 점점 “특정 객체에 특화된 표현”으로 변한다.