스타일/텍스트 추출 → 마스크 기반 제어 생성 → 스타일 적용 → inpainting
[Input Image]
↓
[Grounding DINO] → 객체 감지
↓
[SAM] → 마스크 분리
↓
[ControlNet] → 구조 유지
↓
[민화 LoRA 로드] → 강한 스타일 주입
↓
[Prompt: 민화 스타일 설명]
↓
[SD3 or SDXL] → 민화풍 이미지 생성
https://medium.com/@sumiteshn/computer-vision-models-comparison-84363ccc9a97
Yolo - 빠르다 (한번만 거침) 정확도 좀 떨어진다
Grounding DINO - 조금 느림 별차이 없긴함(여러번 거친다) 정확도 업 Python, PyTorch 필수
둘다 자동으로 객체를 인식한다
Segment Anything (SAM) 경계선만 따는 것 - 다른것도 있긴함
BLIP2, CLIP Interrogator - 객체에 대한 텍스트 자동 생성
JSON에 있던 문구 비슷함 - 간편하게 이미지를 설명하는 것 → SD3의 프롬프트 문구로 들어갈 것
항목 | CLIP Interrogator | BLIP2 |
---|---|---|
개발 주체 | Pharmapsychotic (커뮤니티 기반) | Salesforce Research |
기반 모델 | OpenAI의 CLIP + 다양한 텍스트 생성기 (GPT-2/3, OPT 등) | 자체 모델 (BLIP2 구조 기반) |
목적 | 이미지에서 CLIP에 가장 잘 맞는 프롬프트 생성 | 고성능 이미지 캡셔닝 / 질문응답 등 |
사용 방식 | CLIP embedding → best matching caption 찾기 | 이미지 + 언어 모델 조합으로 직접 캡션 생성 |
입력 | 이미지 | 이미지 (선택적으로 질문 포함) |
출력 | CLIP과 가장 잘 맞는 프롬프트/설명 | 자연스러운 이미지 설명, QA 답변 등 |
ControlNet (segmentation // canny) - 해당 객체만 제어하여 스타일 변경 가능