Untitled
Site-Generalized Wildlife Classifier
카메라트랩 이미지를 scikit-learn 기반 전통 특징으로 분류하고, site 단위 일반화 성능을 검증·제출까지 완주하는 학습형 CV 프로젝트
Traditional CV → Probabilistic Classifier → GroupKFold (site) → Submission
공모전: https://www.drivendata.org/competitions/87/competition-image-classification-wildlife-conservation/
현재 단계: 베이스라인 구축 및 1차 제출 목표
🎯 Executive Summary
- 문제: 카메라트랩 이미지 분류는 촬영 환경 변화가 크고, 무작위 분할로 평가하면 실제 성능을 과대평가하기 쉽다.
- 해결: 이미지에서 “Histogram of Oriented Gradients, HOG” 특징을 추출하고 scikit-learn 확률 분류기로 학습하되, 검증은 GroupKFold로 고정하여 “site 일반화”를 반영한다.
- 결과: (2026-02-14 기준)
- GroupKFold(site) 평균 log loss:
1.8639499
- 1회 제출 점수(리더보드):
1.9354
- 실험 수(베이스라인/개선): 40
- 다음 단계:
- 2주: HOG Feature 조정
- 2개월:
- 2분기:
1. 배경·목표
- 사용자/페르소나:
- (학습 관점) Computer Vision/ML 입문~중급 학습자 (본인)
- (문제 관점) 보전 생태 연구/현장 모니터링에서 카메라트랩 이미지를 분류해야 하는 연구자/기관
- 성공 기준(KPI):
- GroupKFold(site) 기준 평균 log loss 개선
- 제출 성공 1회 이상
- 실험 기록 템플릿으로 실험 10회 이상 누적 (재현/비교 가능)
- 범위(Out of scope):
- 딥러닝 기반 end-to-end 탐지/분류 모델 학습 (예: YOLO/ResNet fine-tuning)
- 외부 데이터 추가 수집 (대회 규정상 제한)
2. 역할·스택·기간
- 역할/기여: ML/데이터/기획 100% (개인)
- 스택:
- Python
- scikit-learn (Logistic Regression, SVM, CalibratedClassifierCV, GroupKFold, log loss)
- scikit-image / OpenCV (이미지 전처리, HOG)
- pandas/numpy
- 기간: 2026-02-11 ~ YYYY-MM-DD