작성자: iam@nyanye.com (정다운)

총 작업기간: 2개월 (회사와 병행)

🙋‍♀️ 소개 🙋🏻

안녕하세요! 저는 선망하던 롤모델들을 쫓아 고등학교 3학년의 인턴쉽을 시작으로 3년 차 데이터 과학자 / 오픈소스 개발자가 된 정다운이라고 합니다. 이번 상품 분류 대회 최종 리더보드에선 전체 팀 중 5위를 차지했습니다. (저에 대해선 제 홈페이지에 더 많이 적어두었어요!)

📝 참가 계기

개인적으로 이전에 오프라인에서 진행되는 머신러닝 대회에 참여한 적이 있어 관련된 대회에 관심이 많았던 차에 머신러닝 관련 온라인 커뮤니티에서 카카오 아레나에 대한 소식을 듣게 되어 대회 개요와 규칙 등을 열심히 읽어보고, 마침 제가 제대로 시도해보고 싶다고 생각했던 한국어 데이터를 적극적으로 활용할 수 있는 문제가 나온 것 같다고 생각해 무작정 참가신청을 했습니다.

아무래도 오프라인 대회와는 다르게 타 플랫폼 Kaggle처럼 온라인으로 비동기적으로 자유롭게 참여하고 채점받고 체험할 수 있다는 점이 무척 매력적으로 다가왔네요 :)

처음 데이터를 다운로드 받고 카카오 아레나에서 제공한 예시 코드를 돌리려고 시도했던 찰나에, 제 PC에 남아있던 저장공간이 턱없이 모자라 여분의 디스크를 구매해 데이터를 열어보고 코딩을 시작했습니다 (ㅠㅠ)

아래 내용은 제가 이번 대회에서 시도한 문제 접근을 소개하기에 앞서 카카오 아레나에서 제공한 간략한 대회의 설명입니다.


📋 대회 설명

다음쇼핑에는 수억개의 상품이 존재합니다. 사용자에게 효과적으로 상품을 노출하기 위해서는 체계적인 분류가 필요하지만, 상품을 제공하는 업체마다 기준이 다르거나 분류 정보가 없는 경우가 많기 때문에 일관된 분류 체계로 만드는 작업이 필요합니다.

이 대회는 더 정확한 상품 분류기를 만드는 것이 목표입니다. 상품은 최대 4개까지의 분류 값을 갖는데, 각 분류는 계층적인 구조입니다. 예를 들어 아이디 L3203227501 상품은 맛있는 제주차 3종세트 ...인데, 이 상품의 카테고리는 아래와 같습니다.

대/중/소/세는 카테고리 분류 체계를 말하며 앞선 카테고리가 상위 카테고리입니다.

이 대회에서 다루게될 데이터는 아래와 같습니다.