Sobolev training
https://arxiv.org/pdf/1706.04859.pdf
Jacobian-norm regularizer (1992)
Knowledge Distillation
the first order Taylor series expansion
$$ f(\mathbf{x}+\Delta\mathbf{x})=f(\mathbf{x})+\nabla_xf(\mathbf{x})^T(\Delta\mathbf{x})+\mathcal{O}(\epsilon^2) \tag{1} $$
neural nets에 존재하는 non-linearity
Jacobian은 network architecture의 크기에 독립적임
$k$ output classes, input dimension $D$ → neural network의 Jacobian의 dimension은 $D \times k$
→ 다른 architecture의 Jacobian도 비교가능함!
다른 weight configuration이라도 같은 Jacobian이 나올 수 있음
두 properties들은 knowledge transfer에 사용되어야 함 → 어떻게???