맡은 역할과 수행한 작업

<aside>

프로젝트 PM으로서 외부 데이터(AI-Hub) 병합 과정에서 발생한 클래스 오류를 디버깅하고, 팀원들의 추론(Inference) 파라미터를 최적화하는 작업을 주도했습니다.

  1. 클래스 112개 현상 디버깅 : 추가한 단일 약제 데이터 병합 후 클래스가 56개에서 112개로 늘어나는 현상을 발견했습니다. 원본 JSON과 추가 데이터 JSON을 뜯어 대조한 결과, 경진대회의 train 데이터의 경우 dl_idx가 제품코드(dl_mapping_code)의 숫자 부분으로 되어있음을 파악했습니다. 정규표현식(re.findall)을 사용해 숫자만 추출하여 category_id로 강제 매핑하는 전처리 코드를 작성하여 56개 클래스로 통합했습니다.

  2. 단일 약제 앞/뒷면 노이즈 필터링: 단일 약제 데이터의 뒷면 이미지가 식별 문자가 없어 모델에 혼란을 줄 수 있다고 추측하고, 파일명 규칙(4번째 인덱스)을 분석해 '앞면' 데이터만 추출하는 파이프라인을 구축했습니다. 또한 기존 데이터와 충돌을 막기 위해 image_idannotation_id를 새로 순차 부여하는 로직을 적용했습니다.

  3. 추론(Predict) 및 검증(Val) 파라미터 통일: 로컬 검증과 실제 Kaggle 추론 시 사용되는 파라미터(conf, imgsz 등)가 달라 결과가 왜곡되는 문제를 해결하기 위해 config.yaml 기준으로 파라미터를 통일하는 PR(#22, #23)을 작성하고 리뷰했습니다.

    https://github.com/Daybreak53/HealthEat-Pill-Detection/pull/22

    https://github.com/Daybreak53/HealthEat-Pill-Detection/pull/23

</aside>


오늘 작업 완료도 체크

🟢 100% (완료 및 점검까지 완료)

<aside>

외부 데이터를 병합 후 여러차례 실험을 진행했습니다. 또한, 외부 데이터 병합 시 발생한 이슈(클래스 분리, ID 충돌, 노이즈)를 추가적인 데이터 정제 전처리 단계에서 해결했으며, 팀원들의 튜닝 기준이 되는 파라미터 환경을 일치시켰습니다.

</aside>


오늘 협업 중 제안하거나 피드백한 내용

<aside>


오늘 분석/실험 중 얻은 인사이트나 발견한 문제점

<aside>


일정 지연이나 협업 중 어려웠던 점

<aside>