1. 핵심 기술 도입

🚀 Diffusion Transformer (DiT) 아키텍처 채택

2. 인프라 및 최적화 전략

🏗️ GCP L4 GPU 환경 분석 및 최적화

🛠️ 해결 솔루션: "양자화 & 스왑" 적용

  1. 4-bit Quantization (Int4): 모델 가중치를 4비트로 압축, VRAM 및 RAM 점유율을 1/4 수준으로 경량화.
  2. Swap Memory (16GB): 로딩 순간 발생하는 메모리 스파이크(Peak)를 디스크로 우회하여 안정성 확보.
  3. Low CPU Mem Usage: accelerate 라이브러리를 통한 순차적 적재(Offloading) 기법 적용.

📊 최적화 전후 성능 예상

구분 최적화 전 (Raw FP16) 최적화 후 (Int4 + Swap) 결과
모델 용량 약 40GB 약 10~12GB ✅ 75% 절감
RAM 점유 60GB+ (폭주) 12~14GB (안정적) ✅ 시스템 생존
VRAM 점유 22GB+ (여유 없음) 10~12GB (여유 있음) ✅ 멀티 태스킹 가능
상태 Server Crash (OOM) Success (정상 구동) 서비스 가능

3. 개발 내용: 프롬프트 전처리 모듈

🧩 프롬프트 전략