객체 인식 → 객체 마스크 분리 →

스타일/텍스트 추출 → 마스크 기반 제어 생성 → 스타일 적용 → inpainting

[Input Image]
      ↓
[Grounding DINO] → 객체 감지
      ↓
[SAM] → 마스크 분리
      ↓
[ControlNet] → 구조 유지
      ↓
[민화 LoRA 로드] → 강한 스타일 주입
      ↓
[Prompt: 민화 스타일 설명]
      ↓
[SD3 or SDXL] → 민화풍 이미지 생성


1단계 - 객체 인식

https://medium.com/@sumiteshn/computer-vision-models-comparison-84363ccc9a97

Yolo - 빠르다 (한번만 거침) 정확도 좀 떨어진다

Grounding DINO - 조금 느림 별차이 없긴함(여러번 거친다) 정확도 업 Python, PyTorch 필수

둘다 자동으로 객체를 인식한다

2단계 - 객체 마스크 분리

Segment Anything (SAM) 경계선만 따는 것 - 다른것도 있긴함

3단계 - 스타일/텍스트 추출

BLIP2, CLIP Interrogator - 객체에 대한 텍스트 자동 생성

JSON에 있던 문구 비슷함 - 간편하게 이미지를 설명하는 것 → SD3의 프롬프트 문구로 들어갈 것

항목 CLIP Interrogator BLIP2
개발 주체 Pharmapsychotic (커뮤니티 기반) Salesforce Research
기반 모델 OpenAI의 CLIP + 다양한 텍스트 생성기 (GPT-2/3, OPT 등) 자체 모델 (BLIP2 구조 기반)
목적 이미지에서 CLIP에 가장 잘 맞는 프롬프트 생성 고성능 이미지 캡셔닝 / 질문응답 등
사용 방식 CLIP embedding → best matching caption 찾기 이미지 + 언어 모델 조합으로 직접 캡션 생성
입력 이미지 이미지 (선택적으로 질문 포함)
출력 CLIP과 가장 잘 맞는 프롬프트/설명 자연스러운 이미지 설명, QA 답변 등

4단계 - 마스크 기반 제어 생성

ControlNet (segmentation // canny) - 해당 객체만 제어하여 스타일 변경 가능