[ Discoverex ] — [ 숨은그림 찾기 ]

"사람-AI 시야 간극 해소를 위한 숨은그림 찾기 데이터 검증 파이프라인 — MobileSAM·OpenCV·YOLOv8·CLIP 4개 모델 어댑터 기반 자동 품질 검증, NVIDIA AI Academy 우수상 수상”

기간/형태: [2026.02.27] ~ [2026.03.25] / [팀(5인) 작업]
개발환경: Linux (WSL2 / Ubuntu) / No GPU / Python 3.11 / VSCode
시연영상: https://youtu.be/dX3C2faLmKA
링크: 팀 레포 [‣] || 작업 [https://github.com/discoverex/engine] || 작업로그_https://lyeum.tistory.com/category/%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8/discoverex

1) 목표: 사람과 AI의 시야 간극 해소

개발의 시작점 :사람과 AI 간의 시야 관점 차이로 인해 발생하는 괴리가 심해서 사용자가 생각한대로 이미지가 생성되지 않는 한계점을 발견, 이를 해소할 수 있는 방법이 없을지 고안하다가 숨은그림 찾기를 주제로 시야 간극 감소 테스트를 진행해보는게 어떨까 싶어, 결정하게 되었습니다
기술스택

모델 / 라이브러리	역할
MobileSAM (HuggingFace)	객체 세그멘테이션 → Z-깊이, 군집, 겹침 정보 추출
OpenCV	LAB 색차, Sobel 엣지, Hu Moments 계산
Moondream2 (VLM) + NetworkX	Scene Graph 구축 → 노드 차수(degree), 홉(hop) 수, 그래프 지름(diameter) 산출
YOLOv8 + CLIP	블러 레벨별 객체 탐지율 및 이미지-텍스트 유사도 곡선 측정
Python (ScoringWeights)	가중합 기반 점수 계산, Hidden Object 판정, `scene_difficulty` 산출
Pydantic v2	전 Phase 도메인 모델 직렬화 (`VerificationBundle` 등)
MLflow	검증 점수, 신호(signal), 모델 버전 추적 및 기록

2) 담당 역할: Data Verifier

: AI가 생성한 숨은 그림의 품질을 체크하고, 통과시 메타 데이터를 부착해 학습용 데이터로 수집하는 역할

주요 업무
[ ] validator 척도 신설
[ ] 학습에 필요한 메타데이터 선정
[ ] 데이터 품질 검사 및 수집까지의 파이프라인 구성

3) 아키텍쳐/구현요약

전체 시스템 아키텍쳐

Data Verifier는 파이프라인에서 생성된 Scene이 퍼즐로서 유효한지 판정하는 컴포넌트입니다. Application Layer의 ValidatorOrchestrator를 중심으로 4개 모델 어댑터(MobileSAM · OpenCV · Moondream2 · YOLOv8+CLIP)를 순차 호출해 신호를 추출하고, 커스텀 로직으로 객체별 숨김 판정과 장면 난이도를 산출해 Approved / Failed 콜렉션으로 분기합니다.

설계 중점

헥사고널 아키텍처 준수: ValidatorOrchestrator는 Port 인터페이스에만 의존해 모델 교체 시 어댑터만 바꾸면 되는 구조로 설계
이중 관점 Hidden 판정: 인간 혼동(Human Field)과 AI 혼동(AI Field)을 별도 지수로 계산해 어느 한 쪽 기준만 충족해도 hidden으로 분류 — 단일 지수로 커버하기 어려운 혼동 유형의 다양성을 보완
2단계 수집 분기: 객체 단위 hidden 판정(1차) → 장면 단위 난이도 검증(2차)으로 수집 품질을 이중으로 보장
Perception / Logical 분리 점수: 시각·논리 두 축을 독립 산출 후 가중합(0.45 / 0.55)해 단일 score 의존의 맹점을 보완, 실패 원인 추적 가능

Data Verifier

워크플로우
Verify__커스텀 처리 로직

4) 진행중 발생한 트러블 이슈

검증 척도 채택 과정
주요 버그사항

5) 결과

검증 척도 설계에서 가장 고민했던 부분은 단일 지표로는 커버할 수 없는 혼동 유형의 다양성이었습니다. Perception과 Logical을 독립 산출한 뒤 가중합으로 통합하는 방식으로 이 문제를 해결했고, 실제로 한 축만 낮아도 다른 축이 보정하지 못하던 v1의 문제를 v2에서 해소할 수 있었습니다. 헥사고널 아키텍처를 적용한 덕분에 DETR에서 MobileSAM으로 모델을 교체할 때 ValidatorOrchestrator를 수정할 필요 없이 어댑터만 교체하면 됐고, 이후 추가 모델 실험도 구조 변경 없이 진행할 수 있었습니다. 기술적 창의성과 실용성을 인정받아 우수상을 수상했습니다.