Deformable DETR.pdf

DETR의 문제점

  1. 각 query가 feature map의 모든 위치에 attetion을 진행하여 느림(Global Attention)
  2. 작은 객체를 탐지하기 어려움(Single-scale Feature)

⇒ Transformer의 Attention Module을 수정하여 문제를 해결하자!

핵심 아이디어

Multi-scale Feature Maps

이미지 내의 다양한 크기 객체를 효과적으로 탐지하기 위해 여러 해상도의 Feature Map을 사용하는 기법

기존의 DETR은 CNN을 통해 입력 이미지에서 Feature Map을 추출합니다. 신경망을 거치면서 Feature Map의 해상도는 점차 낮아지게 되는데, 이렇게 생성된 여러 해상도의 피처 맵을 모두 활용

3.PNG

Deformable Attention 모듈을 활용하여 Multi-scale Feature Map을 통합

Deformable Attetion

모든 위치가 아닌 일부 샘플링 포인트에만 집중해서 연산량을 줄이고 성능을 유지함

123123.PNG