Fine-Tuning이란?

Fine-Tuning은 Pretraining을 통해 언어를 유창하게 아는 거대 모델(LLM)에 조직의 말투·규칙·데이터를 추가 학습시켜, 특정 업무에서 더 잘/안전하게 동작하도록 적응시키는 과정이다.
일반적인 모델을 가져와 특정 분야의 전문가가 되도록 전문적인 교육을 제공하는 것과 같다.
작동 원리는 다음과 같다.
1. 사전 학습된 모델
  - 대규모 언어 모델이나 이미지 분류 모델과 같이 이미 대규모 데이터 세트에 대해 학습된 모델부터 시작한다.
2. 대상 데이터 세트
  - 원하는 작업이나 도메인에 맞는 데이터 세트를 수집한다.
3. 미세 조정
  - 사전 학습된 모델을 대상 데이터 세트에 맞춰 학습시킨다. 여기에는 특정 작업에 대한 성능을 최적화하기 위해 모델의 매개변수를 조정하는 작업이 포함된다.
4. 새로운 모델
  - 그에 대한 결과로 애플리케이션에 맞게 특화된 새로운 정밀 조정 모델이 탄생한다.

RLHF

Reinforcement Learning from Human Feedback : 인간이 “A가 B보다 좋다” 식의 선호(랭킹) 피드백을 주면, 모델이 그 선호를 보상으로 보고 학습하여 행동 경향(톤, 안전성, 도움됨)을 조정하는 정렬(Alignment) 기법.
전형적 파이프라인
1. SFT(지도 미세조정)로 기본 품질 확보
2. 보상모델(Reward Model): 인간 선호 데이터로 학습
3. RL 단계(보통 PPO)로 “원 모델과 멀어지지 않도록(KL 제약)” 하면서 보상 최대화 학습.
변형·대안
- DPO(Direct Preference Optimization): 보상모델·RL 없이 선호 데이터만으로 간단한 분류 손실을 최적화해 RLHF와 동일 목표를 달성하려는 방법(더 단순·안정·경량).
- RLAIF: 사람 대신 AI가 선호라벨을 만들어 정렬에 사용(Constitutional AI 접근 포함). 데이터 비용·속도 측면 이점.
장단점 요약
- 장점: 톤·정책·안전성 등 출력의 “성향”을 정밀 제어 가능(단순 정답 정확도 이상의 “행동”을 다룸).
- 단점: 선호 데이터 구축/검수 비용, RL의 학습 안정성/튜닝 난이도. (DPO는 이 복잡도를 크게 줄임)

초기 단계
- 기존 모델을 기본 모델로 지정하여 정확한 행동에 대한 벤치마크를 설정한다.
- 학습에 필요한 데이터가 방대하기 때문에 사전 학습된 모델을 활용하는 것이 효율적이다.
인간 피드백
- 초기 모델 학습 후, 인간 테스터는 모델 성능에 대한 평가를 제공한다
- 인간 트레이너는 모델에서 생성된 다양한 출력에 대해 품질 또는 정확한 등급을 부여한다.
- 시스템은 이러한 인간 피드백을 기반으로 강화 학습에 대한 보상을 생성한다.
강화 학습
- 보상 모델은 주 모델의 출력을 사용하여 미세 조정되고, 테스터로부터 품질 점수를 받는다.
- 주 모델은 이 피드백을 사용하여 후속 작업의 성능을 향상시킨다.

Parameter-Efficient Fine-Tuning: 거대 모델의 대부분 가중치는 동결하고, 소량 파라미터만 학습해 메모리/비용을 대폭 절감하는 계열 기법. 대표적으로 LoRA, QLoRA, (Prefix/Prompt Tuning, Adapters, IA³ 등)

LoRA: 선형층 업데이트를 저랭크(저차원) 행렬로 근사, 학습 파라미터를 수천~만 배 축소하고 품질은 Full FT에 근접. 추론 오버헤드도 아주 작거나(병합 시 0).