파라미터 $W_{orig}$를 중심으로 손실 함수 $L_{safe}$의 변화량 $\delta L_{safe}$에 대해 2차 테일러 전개
$$ \delta L_{safe} \approx \frac{1}{2} \Delta W^T H \Delta W \quad \text{(Equation 14)} $$
Safe Delta 방법론의 핵심은 전체 $\Delta W_{sft}$ 중에서 각 개별 델타 파라미터 $\delta w_m$ 하나하나가 안전성 손실에 얼마나 기여하는지를 평가하고, 이를 보상하는 것이며, 이를 위한 조건은
즉 $\delta L_{safe}$는 $\frac{1}{2} \Delta W^T H \Delta W$를 최소화하면서 $e_m^T \cdot \Delta W = \delta w_m$ 제약 조건을 만족하는 $\Delta W$를 찾는 것임
이 최적화 문제를 풀기 위해 라그랑주 승수법(Lagrange Multiplier Method)을 사용
그랑지안 $\mathcal{L}$은
$$ \mathcal{L} = \frac{1}{2} \Delta W^T H \Delta W + \lambda (e_m^T \Delta W - \delta w_m) $$
여기서 $\lambda$는 라그랑주 승수
$\mathcal{L}$을 $\Delta W$에 대해 미분하여 0으로 두면
$$ \frac{\partial \mathcal{L}}{\partial \Delta W} = H \Delta W + \lambda e_m = 0 $$
이로부터 최적의 $\Delta W$는
$$ \Delta W = -\lambda H^{-1} e_m $$
이 $\Delta W$를 제약 조건 $e_m^T \cdot \Delta W = \delta w_m$에 대입하여 $\lambda$를 구하면
$$ e_m^T (-\lambda H^{-1} e_m) = \delta w_m \\-\lambda (e_m^T H^{-1} e_m) = \delta w_m $$
$e_m^T H^{-1} e_m$은 $H^{-1}$ 행렬의 $m$-번째 대각 원소인 $[H^{-1}]_{mm}$과 같으므로
$$ -\lambda [H^{-1}]{mm} = \delta w_m \\\lambda = - \frac{\delta w_m}{[H^{-1}]{mm}} \quad \text{(Equation 22)} $$
최적의 $\Delta W$는 $\Delta W^_m = -\lambda H^{-1} e_m = \frac{\delta w_m}{[H^{-1}]{mm}} H^{-1} e_m$, 이 $\Delta W^m$을 $\delta L{safe}$ 식에 대입하면
$$ \delta \mathcal{L}{safe}^m = \frac{1}{2} \left( \frac{\delta w_m}{[H^{-1}]{mm}} \right)^2 [H^{-1}]{mm} \\= \frac{1}{2} \frac{(\delta w_m)^2}{([H^{-1}]{mm})^2} [H^{-1}]{mm} \\= \frac{(\delta w_m)^2}{2 [H^{-1}]{mm}} $$