- 날짜: 2026년 3월 16일 (월)
- 이름: 천지연
- 팀명: Health Eat 5팀
맡은 역할과 수행한 작업
<aside>
Project Manager로서 초기 협업 환경 구축 및 킥오프 회의를 주도하고, 팀원들의 원활한 작업 착수를 위해 데이터셋 구조 파악을 위한 초기 EDA를 수행했습니다.
-
협업 인프라 구축 : Github Repository 및 Kaggle 팀 생성을 완료했습니다. 또한, 원활한 협업을 위한 노션 대시보드를 구축하여 팀원들을 초대했습니다.

-
킥오프 회의 리드 : 오후 3시 30분에 팀 킥오프 회의를 주관하여 역할 분담, 데일리 스크럼 시간, PR 룰, MLOps 추적 방식 등 그라운드 룰을 확립하고 오늘 일정을 설정했습니다.
-
초기 EDA 수행 : 제공된 훈련용(232개) 및 테스트용(842개) 이미지와 763개의 JSON 라벨 데이터를 뜯어보며 데이터의 전반적인 특징, BBox 형태, 클래스 불균형 상태를 분석했습니다.
</aside>
오늘 작업 완료도 체크
🟢 100% (완료 및 점검까지 완료)
<aside>
성공적으로 킥오프 회의를 마쳐 팀원들의 초기 R&R과 룰 세팅을 완료했고, 목표했던 EDA를 통해 내일 진행할 전처리 파이프라인의 핵심 과제를 도출했습니다.
</aside>
오늘 협업 중 제안하거나 피드백한 내용
<aside>
- 데일리 스크럼 방식 및 시간 확정 : 매일 오전에 1시간 여유를 가지고 10시부터 ****1. 어제 한 일 / 2. 오늘 한 일 / 3. 현재 막혀있는 부분에 대해 논의하는 것에 대해 제안했습니다.
- MLOps 방식 제안 : 이전에 멘토님을 통해 알게된 Weights & Biases를 도입하는 것은 어쩔지 제안하였고, 추후 회의 때 각자 조사해보고 재논의를 해보는 것으로 정해졌습니다.
- 30분 에러 SOS 룰 : 혼자 에러에 갇혀 시간을 허비하는 것을 막기 위해, 30분 이상 막히면 즉각 디스코드에 공유하고 강사님/멘토님께 질문하는 규칙을 제안했습니다.
- EDA 진행 : 당장 모델 코드를 짜기보다 오늘 하루는 각자 데이터를 눈으로 확인하며 어떤 어려움이 있을지 인사이트를 각자 정리해보는 것은 어떻지 제안했습니다.
</aside>
오늘 분석/실험 중 얻은 인사이트나 발견한 문제점
<aside>
- 조명 및 렌더링 문제 : 샘플 이미지들을 보면 옅은 푸른색/회색 계열의 배경 위에서 촬영되었습니다. 조명에 따라 알약 표면에 빛 반사나 그림자가 생기므로, 모델이 빛 반사에 강건해지도록 전처리를 진행하는 편이 좋다고 판단했습니다.
- 데이터 구조적 문제 : 하나의 이미지에 여러 알약이 있더라도 각 알약(클래스)마다 별도의 JSON 파일로 쪼개져서 저장되어 있는 구조입니다. (예: K-001900 폴더에는 1900번 알약 1개에 대한 좌표만 존재 ). 따라서 데이터 전처리 단계에서 동일한 file_name을 바라보는 여러 개의 JSON 파일들을 하나로 병합하는 작업이 필수적입니다.
- 해상도 및 BBox 최적화 : 알약 표면의 식별 문자가 이미지상으로 꽤 작아서, 해상도를 너무 작게 줄여버리면 성능이 떨어질 우려가 있습니다. 또한 대각선으로 놓인 길쭉한 알약의 경우 BBox 내부에 여백이 많이 포함되는 현상이 관찰되었습니다. 알약끼리 서로 겹쳐진 이미지는 없었습니다. 캡슐형, 원형, 장방형 등 모양이 다양할 뿐만 아니라, 알약이 놓인 각도도 제각각입니다.
- 클래스 불균형 및 이상치 : 고유한 알약 클래스는 총 56개이며 , '일양하이트린정 2mg'이 153개로 가장 많고 '아빌리파이정 10mg'은 3개뿐이어서 불균형이 심합니다. 또한 이미지 해상도는 976 x 1280으로 모두 동일한데 , 끝점(6878,940)이 해상도를 완전히 벗어난 BBox 이상치가 1건 발견되어 제거 또는 수정이 필요합니다.
원형 알약이 많아 BBox 평균 가로/세로 비율은 0.99이지만 , 2.11 또는 0.40의 극단적인 비율도 존재합니다.
외부 데이터 리서치 : 추가로 모델 성능을 높일 수 있는 식품의약품안전처의 인공지능 개발을 위한 알약 이미지 데이터를 확인했습니다. 샘플 이미지를 다운받아 보았을 때 다양한 각도의 단일 알약 이미지를 제공하고 있었습니다. 여러 논문도 참고할 계획입니다.
</aside>
일정 지연이나 협업 중 어려웠던 점
<aside>
프로젝트 1일차라 특별한 일정 지연은 없었습니다.
다만, 희정님이 Kaggle 데이터셋 다운로드 방식을 잘못 알고 계신 것을 발견하여, KAGGLE CLI이나 KAGGLEHUB 이용방법을 알려드렸습니다. 또, 기우님의 경우 Github 사용이 처음이시라고 들어서 이후 조금 더 신경써서 챙겨야할 것 같다는 생각이 들었습니다.
</aside>