2026년 3월 24일 (화)

맡은 역할과 수행한 작업

<aside>

프로젝트 PM으로서 외부 데이터(AI-Hub) 병합 과정에서 발생한 클래스 오류를 디버깅하고, 팀원들의 추론(Inference) 파라미터를 최적화하는 작업을 주도했습니다.

클래스 112개 현상 디버깅 : 추가한 단일 약제 데이터 병합 후 클래스가 56개에서 112개로 늘어나는 현상을 발견했습니다. 원본 JSON과 추가 데이터 JSON을 뜯어 대조한 결과, 경진대회의 train 데이터의 경우 dl_idx가 제품코드(dl_mapping_code)의 숫자 부분으로 되어있음을 파악했습니다. 정규표현식(re.findall)을 사용해 숫자만 추출하여 category_id로 강제 매핑하는 전처리 코드를 작성하여 56개 클래스로 통합했습니다.
단일 약제 앞/뒷면 노이즈 필터링: 단일 약제 데이터의 뒷면 이미지가 식별 문자가 없어 모델에 혼란을 줄 수 있다고 추측하고, 파일명 규칙(4번째 인덱스)을 분석해 '앞면' 데이터만 추출하는 파이프라인을 구축했습니다. 또한 기존 데이터와 충돌을 막기 위해 image_id와 annotation_id를 새로 순차 부여하는 로직을 적용했습니다.
추론(Predict) 및 검증(Val) 파라미터 통일: 로컬 검증과 실제 Kaggle 추론 시 사용되는 파라미터(conf, imgsz 등)가 달라 결과가 왜곡되는 문제를 해결하기 위해 config.yaml 기준으로 파라미터를 통일하는 PR(#22, #23)을 작성하고 리뷰했습니다.

https://github.com/Daybreak53/HealthEat-Pill-Detection/pull/22

https://github.com/Daybreak53/HealthEat-Pill-Detection/pull/23

</aside>

오늘 작업 완료도 체크

🟢 100% (완료 및 점검까지 완료)

<aside>

외부 데이터를 병합 후 여러차례 실험을 진행했습니다. 또한, 외부 데이터 병합 시 발생한 이슈(클래스 분리, ID 충돌, 노이즈)를 추가적인 데이터 정제 전처리 단계에서 해결했으며, 팀원들의 튜닝 기준이 되는 파라미터 환경을 일치시켰습니다.

</aside>

오늘 협업 중 제안하거나 피드백한 내용

<aside>

평가 기준(Val vs Predict) 통일 제안 : 팀원들이 model.val()과 model.predict()에서 서로 다른 conf 값을 사용하고 있는 것을 발견하고, 정확한 성능 비교를 위해 두 파라미터를 config.yaml 기준으로 통일하도록 챗에 안건을 올리고 반영했습니다.
TTA 적용 결과 분석 리뷰 및 크로스체크 : 김범수 님이 적용한 TTA(Test Time Augmentation)가 코랩 지표상으로는 긍정적이었으나 실제 Kaggle 점수는 오히려 떨어지는 현상을 챗에 공유받고, 저도 동일하게 검증해보았습니다. 무조건적인 증강 추가가 정답이 아님을 팀원들과 합의하여 롤백했습니다. </aside>

오늘 분석/실험 중 얻은 인사이트나 발견한 문제점

<aside>

추가 데이터 정제 이슈 : 추가 데이터를 병합하고 실험을 돌리는 중 로그를 살펴보다가 클래스가 112개로 늘어난 이슈를 확인하였습니다. 로그를 살펴본 덕분에 조기 발견하였고, 원본 JSON과 비교하여 다시 완벽히 호환되도록 매핑 작업을 진행하였고, Kaggle 데이터셋에도 업데이트하였습니다. </aside>

일정 지연이나 협업 중 어려웠던 점

<aside>

코랩 리소스 부족 해결 팁 공유: 고강도 증강과 추가 데이터 학습으로 인해 GPU 컴퓨팅 자원 제한에 걸려, 팀원들에게 조언을 구해 여러 개의 무료 구글 계정을 번갈아 활용하며 실험을 중단 없이 이어가는 팁을 공유받았습니다. </aside>