DETR의 Loss 함수 설계 | Notion

예측된 박스 집합과 정답 박스 집합 사이에서

“어느 예측을 어느 정답과 짝지을지”를 Hungarian 알고리즘으로 결정한 뒤,

그 매칭에 기반해 계산하는 전체 손실을 의미한다.
내부적으로는 “분류 손실 + 박스 손실”의 합이다.
첫 번째 항: 분류 손실 (classification cross-entropy)

Classification loss / Cross-entropy

각 슬롯이 “어떤 클래스인지”를 예측하는 문제에 대한 손실.
정답 클래스의 확률이 높아질수록 손실이 줄어들도록 정의된 것이 cross-entropy이다.
두 번째 항: 박스 회귀 손실 (bounding box regression loss)

Bounding box loss

박스 위치를 얼마나 정확하게 예측했는지를 측정하는 손실.

DETR에서는 두 가지를 합쳐 쓴다.

L1 손실: 예측 박스의 중심 좌표와 폭/높이가 정답과 얼마나 차이 나는지 절대값 기준으로 측정.

L1 손실

예측 값과 정답 값의 차이의 절대값을 합한 손실.
예: |x_pred − x_gt| + |y_pred − y_gt| + |w_pred − w_gt| + |h_pred − h_gt|.
GIoU 손실: 박스가 얼마나 잘 겹치는지(IoU)를 개선한 지표로, 겹치지 않을 때도 유용한 정보가 나오도록 설계된 것.

IoU(Intersection over Union), GIoU

IoU: 예측 박스와 정답 박스가 겹치는 영역의 넓이를, 두 박스가 합쳐 덮는 전체 영역 넓이로 나눈 값.
GIoU: 두 박스가 많이 떨어져 있을 때도 의미 있는 gradient를 주기 위해 IoU를 일반화한 버전.

실제 구현에서는 배경 클래스(∅)에 대한 분류 손실에 작은 가중치(예: 0.1)를 부여하여

배경 샘플이 매우 많은 상황에서의 class imbalance를 완화한다.

클래스 불균형(class imbalance)