지식 증류에서 T는 distillation temperature
지식 증류의 목적은 Teacher network의 지식을 실제 사용하고자 하는 student network에 전달하느것
다음과 같은 소프트맥스 함수
$T=1$ 일반적인 Softmax
$T>1$ 확률 분포가 더 평탄해짐
지수함수의 곡선이 완만해지기 때문 → 여러 클래스에 의미 있는 확률이 분포됨
예를 들어, 원래는
→ student가 더 다양한 클래스 간 유사성을 배움
$T<1$ 확률 분포가 더 샤프해짐
목표: teacher가 배운 클래스 간의 유사도를 student에게 전달