Deformable DETR.pdf
DETR의 문제점
- 각 query가 feature map의 모든 위치에 attetion을 진행하여 느림(Global Attention)
- 작은 객체를 탐지하기 어려움(Single-scale Feature)
⇒ Transformer의 Attention Module을 수정하여 문제를 해결하자!
핵심 아이디어
Multi-scale Feature Maps
이미지 내의 다양한 크기 객체를 효과적으로 탐지하기 위해 여러 해상도의 Feature Map을 사용하는 기법
기존의 DETR은 CNN을 통해 입력 이미지에서 Feature Map을 추출합니다. 신경망을 거치면서 Feature Map의 해상도는 점차 낮아지게 되는데, 이렇게 생성된 여러 해상도의 피처 맵을 모두 활용

- 고해상도 피처 맵: 작은 객체에 대한 정보를 더 많이 포함
- 저해상도 피처 맵: 이미지 전체의 문맥(context) 정보와 큰 객체에 대한 정보를 포함
Deformable Attention 모듈을 활용하여 Multi-scale Feature Map을 통합
- 동작 방식: Deformable DETR은 ResNet과 같은 CNN 백본에서 C3부터 C5까지의 출력 피처 맵과 추가적인 C6 피처 맵을 추출하여 멀티 스케일 피처 맵을 구성합니다.
- 효율적인 정보 교환: Deformable DETR의 멀티 스케일 Deformable Attention 모듈은 FPN(Feature Pyramid Network)과 같은 별도의 구조 없이도 여러 스케일의 피처 맵 간에 정보를 교환할 수 있습니다. 이를 통해 작은 객체는 고해상도 피처 맵에서, 큰 객체는 저해상도 피처 맵에서 효과적으로 탐지할 수 있게 됩니다.
Deformable Attetion
모든 위치가 아닌 일부 샘플링 포인트에만 집중해서 연산량을 줄이고 성능을 유지함
