"사람-AI 시야 간극 해소를 위한 숨은그림 찾기 데이터 검증 파이프라인 — MobileSAM·OpenCV·YOLOv8·CLIP 4개 모델 어댑터 기반 자동 품질 검증, NVIDIA AI Academy 우수상 수상”
| 모델 / 라이브러리 | 역할 |
|---|---|
| MobileSAM (HuggingFace) | 객체 세그멘테이션 → Z-깊이, 군집, 겹침 정보 추출 |
| OpenCV | LAB 색차, Sobel 엣지, Hu Moments 계산 |
| Moondream2 (VLM) + NetworkX | Scene Graph 구축 → 노드 차수(degree), 홉(hop) 수, 그래프 지름(diameter) 산출 |
| YOLOv8 + CLIP | 블러 레벨별 객체 탐지율 및 이미지-텍스트 유사도 곡선 측정 |
| Python (ScoringWeights) | 가중합 기반 점수 계산, Hidden Object 판정, scene_difficulty 산출 |
| Pydantic v2 | 전 Phase 도메인 모델 직렬화 (VerificationBundle 등) |
| MLflow | 검증 점수, 신호(signal), 모델 버전 추적 및 기록 |
: AI가 생성한 숨은 그림의 품질을 체크하고, 통과시 메타 데이터를 부착해 학습용 데이터로 수집하는 역할

Data Verifier는 파이프라인에서 생성된 Scene이 퍼즐로서 유효한지 판정하는 컴포넌트입니다. Application Layer의 ValidatorOrchestrator를 중심으로 4개 모델 어댑터(MobileSAM · OpenCV · Moondream2 · YOLOv8+CLIP)를 순차 호출해 신호를 추출하고, 커스텀 로직으로 객체별 숨김 판정과 장면 난이도를 산출해 Approved / Failed 콜렉션으로 분기합니다.
설계 중점
ValidatorOrchestrator는 Port 인터페이스에만 의존해 모델 교체 시 어댑터만 바꾸면 되는 구조로 설계검증 척도 설계에서 가장 고민했던 부분은 단일 지표로는 커버할 수 없는 혼동 유형의 다양성이었습니다. Perception과 Logical을 독립 산출한 뒤 가중합으로 통합하는 방식으로 이 문제를 해결했고, 실제로 한 축만 낮아도 다른 축이 보정하지 못하던 v1의 문제를 v2에서 해소할 수 있었습니다. 헥사고널 아키텍처를 적용한 덕분에 DETR에서 MobileSAM으로 모델을 교체할 때 ValidatorOrchestrator를 수정할 필요 없이 어댑터만 교체하면 됐고, 이후 추가 모델 실험도 구조 변경 없이 진행할 수 있었습니다. 기술적 창의성과 실용성을 인정받아 우수상을 수상했습니다.