-
정규화: weight decay, dropout, 레이어 정규화
- Weight Decay (가중치 감쇠)
- 큰 가중치에 패널티를 줘 과대적합을 줄이는 방법.
- 파라미터가 과도하게 커지는걸 막아 더 매끈한 함수를 학습하게 한다
- Adam류와 함께 쓸 땐 Decoupled Weight Decay(AdamW)가 표준
- Adam(Adaptive Moment Estimation, 적응형 1차, 2차 모멘트)
- → 경사하강법의 확장으로 목적 함수의 각 입력 변수에 대한 학습률을 자동으로 조정하고 기울기의 기하급수적으로 감소하는 이동 평균을 사용하여 변수를 업데이트함으로써 검색 프로세스를 더욱 월활하게 하는 후속 기술
- Decoupled Weight Decay(AdamW, 분리된 무게 감소)
- → Adam과 같은 적응형 최적화기를 사용하는 경우 훈련 중에 가중치 감소(정규화 방법)가 적용되는 방식을 수정하는 기술
- 가중치 감소 업데이트를 그래디언트(경사) 기반 업데이트에서 분리하여 성능을 개선하고 하이퍼 파라미터 튜닝을 더 쉽게 수행할 수 있다.
- Dropout
- 학습 중 일부 활성값을 확률 p로 무작위 0으로 만들어 공동적응(co-adaptation)을 막는 기법
- 공동적응 : 어떤 뉴런이 다른 특정 뉴런에 의존적으로 변하는 것
- 기대값 보존을 위해 나머지 활성은 1/(1-p)로 스케일한다.
- 레이어 정규화(Layer Normalization)
- 샘플별로 특징 차원(마지막 차원) 에 대해 평균-분산을 사용해 정규화하는 것
- 스케일 불변성, 기울기 흐름 안정.
- 배치 크기에 의존하지 않아 시퀸스/LLM에 적합하다.
- BatchNorm(배치 통계)와 달리 배치의 변경에 영향을 덜 받는다.
-
초기화: 스케일러블 초기화(Pre-LN, RMSNorm)
- 스케일러블 초기화 : 시스템 초기화 과정
- Pre-LN(Layer Normalization)
- 서브레이어 앞에 Layer Norm을 두는 트랜스포머 구조
- RMSNorm : 평균 제거 없이 RMS만으로 정규화
-
RMS(제곱평균제곱근)

-
안정화 트릭: 학습 초반 warmup, 너무 큰 LR/배치는 폭주 위험