스크린샷 2025-05-20 오후 1.40.25.png

지식 증류에서 T는 distillation temperature

지식 증류의 목적은 Teacher network의 지식을 실제 사용하고자 하는 student network에 전달하느것

다음과 같은 소프트맥스 함수

image.png

  1. $T=1$ 일반적인 Softmax

  2. $T>1$ 확률 분포가 더 평탄해짐

  3. $T<1$ 확률 분포가 더 샤프해짐

왜 T>1이 유리한가?

목표: teacher가 배운 클래스 간의 유사도를 student에게 전달

image.png

Preliminary experiments on MNIST