LLM Fine-Tuning & PEFT 기술 학습

| 🤖 LLM Fine-Tuning LoRA · QLoRA · PEFT | ✍️ Prompt Engineering 이미지 & 텍스트 프롬프트 | 🎨 Image Generation Stable Diffusion · ComfyUI | ⚡ OpenAI API GPT · Whisper · DALL-E | | --- | --- | --- | --- |

학습 기간: 2026.02 | Fast Campus 강의 + 논문 자료 + 실습 | AI 엔지니어링 역량 강화

🤖 LLM Fine-Tuning

학습 개요

대규모 언어모델(LLM)을 특정 도메인에 맞게 효율적으로 적응시키는 PEFT 기법 전반을 이론·논문·실습으로 학습했습니다. Full Fine-Tuning의 자원 한계를 LoRA와 QLoRA로 극복하는 원리를 깊이 이해하고, 7단계 파인튜닝 파이프라인을 체득했습니다.

주요 기술 스택

PEFT	LoRA	QLoRA	PyTorch	Hugging Face	Unsloth	LLaMA / Mistral

핵심 개념: Pre-training vs Fine-Tuning

구분	Pre-training (사전학습)	Fine-Tuning (파인튜닝)
개념	언어의 기본 능력을 익히는 단계	특정 목적에 맞게 모델을 조정하는 단계
데이터	대규모 일반 텍스트 (책·위키·웹)	도메인 특화 질문-답변 쌍 데이터
학습 방식	자가지도학습 (SSL)	지도학습 (입력-출력 쌍)
비유	모든 분야의 책으로 언어 감각 습득	특정 분야(의학·법률 등) 집중 공부

PEFT 4가지 방식

방식	설명	대표 기법
① Additive	모델에 작은 모듈을 추가해 그것만 학습	Adapter, Soft Prompt
② Selective	기존 파라미터 일부(Bias 등)만 선택 학습	BitFit
③ Reparameterized	가중치를 저랭크로 분해해 압축된 형태로 학습	LoRA ⭐
④ Hybrid	위의 방법들을 유연하게 조합	UniPELT

LoRA vs QLoRA 비교

Mermaid Chart - Create complex, visual diagrams with text.-2026-02-27-120827.png

| 🔹 LoRA — 핵심 원리 • 기존 가중치(W)는 고정, 저랭크 행렬 A·B만 학습 • 수식: h = Wx + B(Ax) → ΔW ≈ B × A • 전체 파라미터의 0.01% 수준만 업데이트 • 추론 시 지연(Latency) 없음 — A·B를 W에 합산 가능 – r=1~4: 일반 NLP 작업에 충분 – r=8~16: 복잡한 생성 태스크에 권장 | 🔸 QLoRA — 혁신 포인트 • 모델을 4-bit(NF4)로 양자화 후 LoRA 적용 • 메모리 최대 75% 이상 절감 • NF4 + Double Quantization + Paged Optimizer • LLaMA-65B도 48GB GPU 1장으로 학습 가능 – 학습 후 A·B 어댑터만 저장 → 수십 MB – Guanaco: ChatGPT 수준 성능 달성 | | --- | --- |

파인튜닝 7단계 프로세스

| 1 | 모델 선택 LLaMA, Mistral 등 오픈소스 모델 선정 — 자원·성능 트레이드오프 고려 | | --- | --- |

| 2 | 데이터셋 준비 질문-답변 쌍 등 JSON 포맷으로 변환, 품질 필터링 필수 | | --- | --- |

| 3 | 토크나이저 설정 반드시 모델과 동일한 토크나이저 사용 (불일치 시 성능 저하) | | --- | --- |