사전 학습(Pretraining)

목표(Objective)

Causal LM(다음 토큰 예측): 지금까지의 토큰을 보고 다음 토큰의 분포를 맞히는 방식
- → 데타에 대한 조건부 확률(Pθ(xt | x<t) 를 t = 1부터 T까지 곱한 값을 최대화한다
(참고) Masked LM(BERT류): 일부 토큰을 가려놓고 맞히기 → 인코더 중심 모델

데이터와 Tokenizer

데이터 구성: 웹/책/코드/포럼/뉴스 등 대규모 말뭉치, 중복 제거와 품질 필터링이 중요하다.
토크나이저: BPE/Unigram 등 서브워드 단위, 특수 토큰(BOS/EOS/패딩) 관리
- BPE(Byte Pair Encoding) : 문장 혹은 단어 안에 있는 글자들을 적절한 단위로 나누는 subword tokenizer의 하나, token 들의 빈도를 기반으로 높은 빈도의 토큰들을 merge 해가며 최종 token을 만들어내는 방법
- Unigram : 모든 Pre-tokenized 토큰과 서브 워드에서 시작해 점차 사전을 줄여나가는 방식으로 진행한다.
  - 음의 로그 유도(NLL) 목적식
  - xi : i 번째 문장(원본 문자열)
  - S(xi) : 그 문장을 서브워드로 쪼개는 모든 가능한 분할(토크나이즈) 경로 집합
  - x∈S(xi) : 한 개의 분할 경로 ( 예 : 안녕하세-요 vs 안녕-하세요)
  - p(x) : 그 분할 경로의 확률 = 경로에 포함된 서브워드 조각들의 확률 곱
  - p(x) = ∏t∈x π(t), π(t)는 서브워드 조각 t의 파라미터(확률)
컨텍스트 길이: 2k~128k 등 다양하다. 길수록 비용은 높아진다(기본 어텐션 복잡도 O(n²))
- 어텐션(Attention, 문맥 가중 결합)
  - 토큰들끼리의 “유사도 기반 가중합” 메커니즘
  - 각 토큰이 다른 토큰을 얼마나 참고할지 확률(가중치)로 정하고, 그 가중치로 정보를 섞어 최종 표현을 만든다.
  - Scaled Dot Product Attention, Multi-head Attention(MHA), Self-Attention, Cross-Attention, Causal Mask(하삼각), PAdding Mask 등 다양한 Attention 메커니즘 존재

스케일링 법칙과 데이터-모델-연산의 균형

핵심: 같은 연산량에서 모델 크기 vs 데이터 토큰 수의 균형이 중요
데이터가 모자라면 과대적합/환각(hallucination)이 증가한다.
- 과대적합(Overfitting)
  - 학습 데이터(또는 프롬프트 패턴)에만 지나치게 맞춰져 일반화 성능이 떨어지는 상태
  - 신호 + 노이즈까지 학습하여 새로운 데이터/문맥에서 성능이 하락한다.
  - 과대적합은 “배운 것을 밖에서 못 쓴다”의 문제
- 환각(hallucination)
  - 모델이 그럴듯하지만 사실과 다른 출력을 만들어내는 현상
  - 지식 부족, 근거 부재, 목표 함수 불일치, 검색 실패, 디코딩 온도 등으로 발생
  - 환각은 “근거 없이 지어낸다”의 문제
모델만 크게 해도 성능이 한계(데이터/컨텍스트/정규화가 함께 맞아야 함)
적정 토큰 수, 적정 파라미터 동시 최적화를 목표로 설계

안정화와 규제화

정규화: weight decay, dropout, 레이어 정규화
- Weight Decay (가중치 감쇠)
  - 큰 가중치에 패널티를 줘 과대적합을 줄이는 방법.
  - 파라미터가 과도하게 커지는걸 막아 더 매끈한 함수를 학습하게 한다
  - Adam류와 함께 쓸 땐 Decoupled Weight Decay(AdamW)가 표준
    - Adam(Adaptive Moment Estimation, 적응형 1차, 2차 모멘트)
      - → 경사하강법의 확장으로 목적 함수의 각 입력 변수에 대한 학습률을 자동으로 조정하고 기울기의 기하급수적으로 감소하는 이동 평균을 사용하여 변수를 업데이트함으로써 검색 프로세스를 더욱 월활하게 하는 후속 기술
    - Decoupled Weight Decay(AdamW, 분리된 무게 감소)
      - → Adam과 같은 적응형 최적화기를 사용하는 경우 훈련 중에 가중치 감소(정규화 방법)가 적용되는 방식을 수정하는 기술
      - 가중치 감소 업데이트를 그래디언트(경사) 기반 업데이트에서 분리하여 성능을 개선하고 하이퍼 파라미터 튜닝을 더 쉽게 수행할 수 있다.
- Dropout
  - 학습 중 일부 활성값을 확률 p로 무작위 0으로 만들어 공동적응(co-adaptation)을 막는 기법
    - 공동적응 : 어떤 뉴런이 다른 특정 뉴런에 의존적으로 변하는 것
  - 기대값 보존을 위해 나머지 활성은 1/(1-p)로 스케일한다.
- 레이어 정규화(Layer Normalization)
  - 샘플별로 특징 차원(마지막 차원) 에 대해 평균-분산을 사용해 정규화하는 것
  - 스케일 불변성, 기울기 흐름 안정.
  - 배치 크기에 의존하지 않아 시퀸스/LLM에 적합하다.
  - BatchNorm(배치 통계)와 달리 배치의 변경에 영향을 덜 받는다.
초기화: 스케일러블 초기화(Pre-LN, RMSNorm)
- 스케일러블 초기화 : 시스템 초기화 과정
- Pre-LN(Layer Normalization)
  - 서브레이어 앞에 Layer Norm을 두는 트랜스포머 구조
- RMSNorm : 평균 제거 없이 RMS만으로 정규화
  - RMS(제곱평균제곱근)
안정화 트릭: 학습 초반 warmup, 너무 큰 LR/배치는 폭주 위험

안전/윤리 관점(간단히)

개인정보/민감정보 필터링, 유해 콘텐츠 최소화, 데이터 출처 기록
사전 학습만으로는 “선호/정책”을 내재화하기 어려움 → 파인튜닝 단계로 연결