| 🤖 LLM Fine-Tuning LoRA · QLoRA · PEFT | ✍️ Prompt Engineering 이미지 & 텍스트 프롬프트 | 🎨 Image Generation Stable Diffusion · ComfyUI | ⚡ OpenAI API GPT · Whisper · DALL-E | | --- | --- | --- | --- |
학습 기간: 2026.02 | Fast Campus 강의 + 논문 자료 + 실습 | AI 엔지니어링 역량 강화
🤖 LLM Fine-Tuning
학습 개요
대규모 언어모델(LLM)을 특정 도메인에 맞게 효율적으로 적응시키는 PEFT 기법 전반을 이론·논문·실습으로 학습했습니다. Full Fine-Tuning의 자원 한계를 LoRA와 QLoRA로 극복하는 원리를 깊이 이해하고, 7단계 파인튜닝 파이프라인을 체득했습니다.
주요 기술 스택
| PEFT | LoRA | QLoRA | PyTorch | Hugging Face | Unsloth | LLaMA / Mistral |
|---|
핵심 개념: Pre-training vs Fine-Tuning
| 구분 | Pre-training (사전학습) | Fine-Tuning (파인튜닝) |
|---|---|---|
| 개념 | 언어의 기본 능력을 익히는 단계 | 특정 목적에 맞게 모델을 조정하는 단계 |
| 데이터 | 대규모 일반 텍스트 (책·위키·웹) | 도메인 특화 질문-답변 쌍 데이터 |
| 학습 방식 | 자가지도학습 (SSL) | 지도학습 (입력-출력 쌍) |
| 비유 | 모든 분야의 책으로 언어 감각 습득 | 특정 분야(의학·법률 등) 집중 공부 |
PEFT 4가지 방식
| 방식 | 설명 | 대표 기법 |
|---|---|---|
| ① Additive | 모델에 작은 모듈을 추가해 그것만 학습 | Adapter, Soft Prompt |
| ② Selective | 기존 파라미터 일부(Bias 등)만 선택 학습 | BitFit |
| ③ Reparameterized | 가중치를 저랭크로 분해해 압축된 형태로 학습 | LoRA ⭐ |
| ④ Hybrid | 위의 방법들을 유연하게 조합 | UniPELT |
LoRA vs QLoRA 비교

| 🔹 LoRA — 핵심 원리 • 기존 가중치(W)는 고정, 저랭크 행렬 A·B만 학습 • 수식: h = Wx + B(Ax) → ΔW ≈ B × A • 전체 파라미터의 0.01% 수준만 업데이트 • 추론 시 지연(Latency) 없음 — A·B를 W에 합산 가능 – r=1~4: 일반 NLP 작업에 충분 – r=8~16: 복잡한 생성 태스크에 권장 | 🔸 QLoRA — 혁신 포인트 • 모델을 4-bit(NF4)로 양자화 후 LoRA 적용 • 메모리 최대 75% 이상 절감 • NF4 + Double Quantization + Paged Optimizer • LLaMA-65B도 48GB GPU 1장으로 학습 가능 – 학습 후 A·B 어댑터만 저장 → 수십 MB – Guanaco: ChatGPT 수준 성능 달성 | | --- | --- |
파인튜닝 7단계 프로세스
| 1 | 모델 선택 LLaMA, Mistral 등 오픈소스 모델 선정 — 자원·성능 트레이드오프 고려 | | --- | --- |
| 2 | 데이터셋 준비 질문-답변 쌍 등 JSON 포맷으로 변환, 품질 필터링 필수 | | --- | --- |
| 3 | 토크나이저 설정 반드시 모델과 동일한 토크나이저 사용 (불일치 시 성능 저하) | | --- | --- |