-
cross-entropy loss는 supervised learning에서 많이 사용됨
- 이는 label distribution과 empirical distribution의 KL-divergence로 정의
-
cross-entropy를 개선하기 위한 방법으로 loss의 정의를 완화
- e.g. reference distribution은 axis-aligned
- Label smoothing : fuzzy distinction between correct and incorrect labels by moving off-axis
- Self-distillation : multiple rounds of cross-entropy training
- Mixup : create explicit new training examples and apply the same linear interpolation to the target distribution
-
같은 클래스는 가깝게하고 다른 클래스는 멀리하는 새로운 supervised training loss 제안
-
self-supervised learning에서 좋은 성능을 보이고 metric learning과 많은 연관이 있는 contrastive objective functions
-
contrastive loss는 두 개의 "opposing force"로 구성
- anchor point가 주어짐
- 첫 번째 force는 anchor를 다른 point들과 가깝게 당김 : positives
- 두 번째 force는 anchor를 다른 point들과 멀게 밀어냄 : negatives
-
self-supervised contrastive learning에서 single positive를 사용한 것과 달리, 이 논문에서는 many positive들을 고려함


-
Auto-Augment를 사용한 ResNet-50의 결과, cross-entropy loss를 사용한 것보다 supervised contrastive loss를 사용한 경우가 1.6% 높았음

-
Main contributions
- anchor당 multiple positives를 적용한 contrastive loss를 사용하여 full supervised setting에서 contrastive learning을 진행
- cross-entropy와 비교했을 때 top-1 accuracy와 robustness에서 state of the art 기록
- cross-entropy보다 hyperparameter 범위에 덜 민감
- hard positive와 hard negative의 학습을 촉진하는 gradient + single positive와 negative가 사용되었을 때 triplet loss와 연관성