스크린샷 2025-05-20 오후 1.40.25.png

지식 증류에서 T는 distillation temperature

지식 증류의 목적은 Teacher network의 지식을 실제 사용하고자 하는 student network에 전달하느것

다음과 같은 소프트맥스 함수

$T=1$ 일반적인 Softmax
- 일반적인 classification에서 사용하는 형태
- 가장 높은 로짓 하나에 거의 모든 확률이 쏠림 → 정보가 제한적
$T>1$ 확률 분포가 더 평탄해짐
- 지수함수의 곡선이 완만해지기 때문 → 여러 클래스에 의미 있는 확률이 분포됨
  
  예를 들어, 원래는
  - [0.01,0.98,0.01] 이던 것이
  - T=5T 에서는[0.2,0.5,0.3]로 변함
  → student가 더 다양한 클래스 간 유사성을 배움
$T<1$ 확률 분포가 더 샤프해짐
- 거의 hard label과 유사해짐

목표: teacher가 배운 클래스 간의 유사도를 student에게 전달

Preliminary experiments on MNIST