작성자 : 이혜민 (gudbooy@gmail.com)

발표일 : 20201019 at DeepLAB 논문반

Paper : https://arxiv.org/abs/1912.11370

Motivation

해당 Recipe을 "Big Transfer" 라고 부름

본 논문에서는 복잡한 학습 기법이나 새로운 패러다임을 제안하는 것은 아니고, 예전 부터 흔히 사용되었던 Transfer Learning에 관련된 내용을 좀 더 자세히 살펴보고, 어떻게 높은 성능을 낼 수 있는지에 대해서 설명과 이에 대한 Transfer 관련 Recipe을 제안.

여기서 제안된 Recipe과 아주 간단한 Heuristic이 들어간 Transferring 기법만 적용해서 20개의 Dataset에 대해서 SOTA 수준의 성능을 달성

기존 SOTA 기법들의 문제점들

반대로 Big Transfer의 경우에는 위의 과정이 없이 SOTA에 필적한 성능을 낼 수 있다고 이야기한다.

본 논문에서는 효과적인 Transfer를 만들기 위한 필수 구성요소들 Dataset의 Scale, Model Architecture, Tranining Hyperparameter 가 어떻게 Transfer 성능과 연관되는지에 대한 empirical 한 Study를 진행

Big Transfer

Transfer를 크게 두 개의 형태로 Component를 나눠서 생각한다.

  1. Upstream component : Pre-training에서 고려되어야 하는 것들
  2. Dowstream component : Fine-tuning에 고려되어야 하는 것들