맡은 역할과 수행한 작업

<aside>

PM으로서 팀의 실험 프로세스를 체계화하고, 데이터 엔지니어링을 주도하여 외부 추가 데이터(AI Hub 단일경구약제) 확보 및 파이프라인 연동을 완수했습니다.

  1. 고도화 공유 프로세스 확립 : 무분별한 튜닝과 제출을 방지하기 위해 매일 1시, 3시, 5시에 중간 점검을 진행하는 룰을 신설했습니다. 개인 실험 후 W&B 로그 공유 -> PR 리뷰 -> 합의 후 제출이라는 명확한 프로세스를 정립했습니다.
  2. 대용량 데이터(2TB) 추출 파이프라인 구축 : AI Hub의 2TB짜리 '단일경구약제' ZIP 파일에서 우리 타겟 56개 클래스에 해당하는 이미지만 메모리상에서 필터링하여 추출하는 스크립트를 작성했습니다.
  3. 클라우드 우회 다운로드 트러블슈팅 : 100GB 단위 파일 다운로드 중 발생한 통신사 QoS(속도 제한) 및 Colab(해외 IP) 접근 차단 문제를 해결하기 위해, 네이버 클라우드 한국 리전을 구축하여 2TB 데이터를 필요한 부분만 성공적으로 정제했습니다.
  4. 팀 협업용 Kaggle Private Dataset 배포 : 정제한 추가 데이터를 팀원들이 함께 쓸 수 있도록 Kaggle에 비공개 데이터셋으로 업로드하고 권한을 부여했습니다. </aside>

오늘 작업 완료도 체크

🟢 100% (완료 및 점검까지 완료)

<aside>

가장 난이도가 높았던 2TB 외부 데이터의 클라우드 기반 우회 추출 및 정제를 끝냈고, 캐글 데이터셋 업로드 및 팀원 연동 테스트까지 마쳤습니다. 또한 팀의 Public Score도 0.95386으로 대폭 상승했습니다.

</aside>


오늘 협업 중 제안하거나 피드백한 내용

<aside>


오늘 분석/실험 중 얻은 인사이트나 발견한 문제점

<aside>


일정 지연이나 협업 중 어려웠던 점

<aside>

AI Hub의 2TB 데이터 다운로드 시 로컬 인터넷의 QoS(100Mbps 제한)가 걸리고, Colab 환경은 해외 IP로 간주되어 502 에러(접근 차단)가 뜨는 등 데이터 확보에 큰 병목이 있었습니다. 하지만 즉각적으로 국내 클라우드의 1Gbps 망과 200GB 블록 스토리지를 임대하는 판단을 내려, 시간당 과금이라는 최소한의 비용으로 일정 지연 없이 문제를 해결했습니다.

</aside>