https://youtu.be/XtnJdFA-JsM

01 멘토 소개


김범준

안녕하세요. SKT 연구 조직인 T3K 내 Vision AI Product개발팀에서 Vision AI관련한 시스템 개발을 맡고 있습니다. 서로 가진 경험과 열정을 나누고 같이 발전하는 계기로 만들어봐요. 🙂

안대기

안녕하세요.😉 음성인식 Device NUGU 사업에서 Device 개발 및 양산화를 담당하였고, 현재 Tech Acceleration팀에서 SKT 기술자산 기반 Full Stack 상품화를 담당하고 있습니다.✌

02 프로젝트 소개


보통 Self-Supervised Learning은 다른 paper와 비교를 위한 벤치마킹 데이터셋으로 ImageNet이나 COCO와 같은 Public Database를 사용하기 때문에 구분력을 가지게 만들어야 하는 클래스가 매우 다양합니다. 이번 과제에서는 Public DB를 활용하여 모든 클래스의 성능을 높이는 것이 아닌 “person 클래스에 대한 성능”만을 높이는 것으로 task를 단순화했습니다. (물론 person 하나의 클래스 성능을 높이기 위해 1-class 모델을 사용 하셔도 좋고 multi-class 모델을 사용 하셔도 좋습니다.)

Self-Supervised Learning이란 기본적으로 “다수의 unlabeled data” 혹은 “소수의 labeled data와 다수의 unlabeled data”를 활용하여 다수의 labeled data를 활용한 것과 얼마나 비슷한 성능을 낼 수 있는가에 도전하는 문제입니다. person과 같은 feature는 너무 유명하고 이미 정복된 분야라고 생각하실 수 있지만, 다양한 배경/조도/물체에 따라 많은 false alarm이 발생 할 수 있습니다. (곤충, 그림자 등)

저희는 이런 문제를 해결하기 위해 다양한 환경의 데이터를 구매하고 이에 대한 Annotation을 맡겨서 문제를 해결하고 있지만, 데이터를 labeling하는 것은 막대한 시간과 비용을 필요로 하기 때문에 large scale의 unlabeled 데이터가 있다고 하더라도 활용하는 것은 쉽지 않습니다.

본 과제는 이런 pain-point를 해결하는 실마리를 찾는 것을 목표로 하고 있습니다. Open Image dataset이나 COCO와 같은 Public DB의 person 이미지 만을 활용하여 label 없이 person의 성능을 얼마나 향상 시킬 수 있는지 기 구현된 프레임워크(VISSL)를 활용해 검증 해보고, 추가로 여력이 된다면 Object Detection영역으로 확장해 보는 것을 목표로 하고 있습니다. 보통 Self-Supervised Learning 챌린지에서는 “1% labeled / 99% unlabeled”, “10% labeled / 90% unlabeled”와 같이 데이터를 나눠 활용하곤 합니다. 이런 부분은 과제를 시작하며 논의하면 될 것 같습니다.

저희의 목표는 알고리즘의 성능을 1%, 2% 올리는 것이 아니고, Self-Supervised Learning의 최신 트렌드 및 프레임워크를 파악하고 익혀서 잘 사용할 수 있도록 하는 것입니다. 그리고 이 부분에 집중 하는 것이 저희와 fellow분들의 성장 면에서 더 큰 의미가 있을 것이라고 생각합니다. 🙂

framework 사용은 필수 사항은 아닙니다. 코드가 공개되어 있지 않은 논문이라도 직접 구현하거나 아이디어를 반영하는 것은 자유입니다.

03 이런 fellow를 찾습니다