[2026.01.31 ~ 2026.02.03]

1. 프로젝트 개요

목표: 소상공인(카페 등)이 촬영한 단순한 음식/매장 사진을 입력받아, SNS 마케팅에 즉시 사용 가능한 고품질 홍보 이미지로 변환(I2I)하는 자동화 서비스 개발.
Backend 역할:
- API 비용 절감 및 데이터 보안을 위해 외부 API가 아닌 로컬(On-Premise) 구동 모델 구축.
- 자원 효율화를 위한 하이브리드 개발 전략: 한정된 GCP 자원 제약으로 인해 로컬(Windows) 환경에서 선행 개발 및 실험을 주도하고, 추후 배포 환경(Linux/GCP)과의 호환성(Cross-platform)을 확보하는 마이그레이션 전략 수립.
- 최신 모델(FLUX.2)의 경량화 버전 도입 및 최적화.

2. 모델 선정 및 아키텍처

2.1 선정 모델: FLUX.2-klein-4B

선정 이유: 2026년 1월 출시된 최신 모델로, 기존 모델 대비 압도적인 텍스트 이해도와 이미지 품질을 보유하면서도 4B(Billion) 파라미터 수준으로 경량화되어 자체 서버 구동이 가능함.
모델 소스 (Repository):
- Main Model: black-forest-labs/FLUX.2-klein-4B (기본 모델 웨이트)
- VAE (Autoencoder): FLUX.2-klein-4B 리포지토리에 VAE가 포함되어 있지 않아, black-forest-labs/FLUX.2-dev 리포지토리에서 ae.safetensors 파일만 별도로 추출하여 통합함.
구성 요소 및 용량 분석:
- 단순히 4B 모델이라고 해서 4GB가 아님. 텍스트 이해를 담당하는 Encoder가 매우 거대함.
- Transformer (Diffusion Core): 7.75 GB (핵심 생성 엔진)
- Text Encoder: 약 8.05 GB (프롬프트 이해)
- VAE (Autoencoder): 336 MB (이미지 압축/복원)
- Total Footprint: 약 16.1 GB (초기 로드 시 시스템 RAM 부하의 주원인)
  
  (※ 실제 구동 시 메모리 점유율 변화는 4. 인프라 최적화 섹션의 작업관리자 캡처 화면 참조)

3. 핵심 엔지니어링 & 트러블슈팅 (Troubleshooting)

📂 기반 코드: Black Forest Labs 공식 GitHub 리포지토리(https://github.com/black-forest-labs/flux2)를 git clone하여 베이스라인 구축.

이슈 1: Windows 환경에서의 경로 인식 실패 (FileNotFoundError)

문제: Linux 기반으로 작성된 오픈소스 코드를 Windows PowerShell 환경에서 실행 시, input_images 경로 파싱 과정에서 역슬래시(\\) 처리 문제 및 os.path.exists의 엄격한 체크로 인해 유효한 경로를 인식하지 못함.
해결: scripts/cli.py의 인자 파싱 로직을 재설계하여, 경로 존재 여부 체크를 완화하고 Path 객체로 직렬화하도록 수정.

# [Before] 수정 전 코드: 경로가 완벽하지 않으면 리스트에 추가조차 안 됨
if os.path.exists(part):
    items.append(Path(part))
else:
    print(f"File {part} not found. Skipping for now...")

# [After] 수정 후 코드: Windows 경로 호환성을 위해 체크 로직 우회 및 강제 주입
items.append(Path(part)) 
# Windows 환경 변수 문제로 인한 False Negative 방지

이슈 2: 모델 로딩 최적화 및 호환성 해결 (Memory Optimization)

문제: 원본 코드는 klein 모델 사용 시에도, 업샘플링과 안전 검사를 위해 무거운 FLUX.2-dev (Mistral 기반) 모델을 추가로 로드하도록 하드코딩되어 있음. 이로 인해 불필요한 VRAM/RAM 점유가 발생하고, 경량화 모델(Qwen)과는 호환되지 않는 메서드(test_image) 호출로 에러 발생.
해결:
1. 불필요한 FLUX.2-dev 모델 로딩 로직을 제거하고, 이미 로드된 text_encoder를 재사용하도록 변경하여 메모리 스파이크 방지.
2. 로컬 실험 환경에서는 안전 검사 로직을 우회(Bypass)하여 4090 GPU 자원을 온전히 이미지 생성에만 집중시킴.