OBS Pruning in Safe Delta

파라미터 $W_{orig}$를 중심으로 손실 함수 $L_{safe}$의 변화량 $\delta L_{safe}$에 대해 2차 테일러 전개

$$ \delta L_{safe} \approx \frac{1}{2} \Delta W^T H \Delta W \quad \text{(Equation 14)} $$

Safe Delta 방법론의 핵심은 전체 $\Delta W_{sft}$ 중에서 각 개별 델타 파라미터 $\delta w_m$ 하나하나가 안전성 손실에 얼마나 기여하는지를 평가하고, 이를 보상하는 것이며, 이를 위한 조건은

$m$-번째 파라미터만 $\delta w_m$ 만큼 변화 (즉, $\Delta W$ 벡터의 $m$-번째 원소만 $\delta w_m$이고, 나머지는 이상적으로 조정되어 전체 손실을 최소화한다고 가정)
이를 수학적으로는 $e_m^T \cdot \Delta W = \delta w_m$ 이라는 제약 조건으로 표현 ($e_m$은 $m$-번째 원소만 1이고 나머지는 0인 단위 벡터)

즉 $\delta L_{safe}$는 $\frac{1}{2} \Delta W^T H \Delta W$를 최소화하면서 $e_m^T \cdot \Delta W = \delta w_m$ 제약 조건을 만족하는 $\Delta W$를 찾는 것임

이 최적화 문제를 풀기 위해 라그랑주 승수법(Lagrange Multiplier Method)을 사용

그랑지안 $\mathcal{L}$은

$$ \mathcal{L} = \frac{1}{2} \Delta W^T H \Delta W + \lambda (e_m^T \Delta W - \delta w_m) $$

여기서 $\lambda$는 라그랑주 승수

$\mathcal{L}$을 $\Delta W$에 대해 미분하여 0으로 두면

$$ \frac{\partial \mathcal{L}}{\partial \Delta W} = H \Delta W + \lambda e_m = 0 $$

이로부터 최적의 $\Delta W$는

$$ \Delta W = -\lambda H^{-1} e_m $$

이 $\Delta W$를 제약 조건 $e_m^T \cdot \Delta W = \delta w_m$에 대입하여 $\lambda$를 구하면

$$ e_m^T (-\lambda H^{-1} e_m) = \delta w_m \\-\lambda (e_m^T H^{-1} e_m) = \delta w_m $$

$e_m^T H^{-1} e_m$은 $H^{-1}$ 행렬의 $m$-번째 대각 원소인 $[H^{-1}]_{mm}$과 같으므로

$$ -\lambda [H^{-1}]{mm} = \delta w_m \\\lambda = - \frac{\delta w_m}{[H^{-1}]{mm}} \quad \text{(Equation 22)} $$

최적의 $\Delta W$는 $\Delta W^_m = -\lambda H^{-1} e_m = \frac{\delta w_m}{[H^{-1}]{mm}} H^{-1} e_m$, 이 $\Delta W^m$을 $\delta L{safe}$ 식에 대입하면

$$ \delta \mathcal{L}{safe}^m = \frac{1}{2} \left( \frac{\delta w_m}{[H^{-1}]{mm}} \right)^2 [H^{-1}]{mm} \\= \frac{1}{2} \frac{(\delta w_m)^2}{([H^{-1}]{mm})^2} [H^{-1}]{mm} \\= \frac{(\delta w_m)^2}{2 [H^{-1}]{mm}} $$