카카오팀은 upstream task 2억 1천만 장, downstream task 60만장을 사용해서 5%의 성능향상을 얻었다 (참고3,5).

단, 카카오가 자체 데이터셋으로 실험한 결과의 경우에는, domain gap (참고1,2) 이 없었다. 도메인 갭이 없다면 당연히 transfer learning 이 특히 더 좋은 사전지식을 줄 수 있으리라 생각할 수 있다.

논문(참고6) 에서는 높은 localization 을 요구하는 문제가 아닌 단순한 문제일수록 더 좋은 영향을 받을 수 있다고 설명한다 (참고7). 카카오팀은 classification task 를 classification task 로 전이학습했기에 좋은 영향을 받을 수 있지 않았을까.

또한 논문에서는 IMAGENET 과 COCO 데이터셋을 통해 실험하며, 모델이 결국 비슷한 양의 픽셀을 보면 비슷한 정도로 수렴하기 때문에 (참고8) pretraining 에 들어가는 어마어마한 시간 리소스, 컴퓨팅 리소스를 고려했을 때 비효율적이라고 주장한다. 실제로 카카오는 5% 높은 정확도를 얻기 위해 downstream (target) 데이터에 비해 수백배 많은 이미지와 수십배 많은 시간과 연산자원을 쏟아부었다 (참고9). 이것은 들어간 리소스를 고려했을 때, transfer learning 이 최종성능에 주는 영향이 충분하지 못한 것 아니냐는 비판에서 자유롭기 어렵다 (참고10).

카카오의 사례에서 전이학습을 통해 5% 남짓의 성능향상을 얻을 수 있었던 이유는, (1) 학습 효율 등을 다 씹어먹을 정도의 2억장의 어마어마한 스케일의 데이터셋을, (2) domain gap 없는 문제에, (3) 동일한 수준의 localization 이 요구되는 문제에 적용했고, (4) 이를 소화할 정말 풍부한 컴퓨팅 자원으로 사전학습시켰기 때문에 가능했던 일이 아니었을까.


참고

  1. domain gap (도메인 간 시각정보가 너무 다른 상황) 예시
  2. deer.a7.3_7_1. [info] title: 도메인 차이(Domain gap)
  3. 05:30, upstream task 로 계층구조가 있는 label 데이터 2억 1천만 장을 사용하고, 60만장의 데이터를 사용하는 downstream task 는 upstream task 와 겹치는 클래스와 레이블은 존재하지 않는다. (환경설명1)
  4. .
  5. 03:45, Transfer learning 을 사용한 경우 from scratch 보다 5~6% 높은 성능을 보인다. Downstream task 학습 시간은 upstream task 의 학습 시간의 5% 정도밖에 안 된다. 신중하게 upstream task 를 정의해야 한다.
  6. 1811.08883.pdf Rethinking ImageNet Pre-training
  7. introduction, 2p, 알게 된 사실 : fine spatial localization, converges relatively faster from scratch. ImageNet pre-training shows no benefit when the target tasks/metrics are more sensitive to spatially welllocalized predictions. (더 spatial localization 이 강하게 요구되는 task* 에서는 classification 사전학습 효과가 떨어진다.) 근거** , 실험*** 참고.
  8. Methodology.Convergence, 3p, This suggests that a sufficiently large number of total samples (arguably in terms of pixels) are required for the models trained from random initialization to converge well. (실험을 통해, 모델에 스쳐지나간 픽셀의 수가 근접해지면, pretrained weight + fine-tuning 된 model 과 from scratch 된 model 의 성능이 비슷해진다고 결론내리고 있다.) 실험*
  9. 03:45, Transfer learning 을 사용한 경우 from scratch 보다 5~6% 높은 성능을 보인다. Downstream task 학습 시간은 upstream task 의 학습 시간의 5% 정도밖에 안 된다. 신중하게 upstream task 를 정의해야 한다.
  10. Results and Analysis.Training from scratch to match accuracy, 5p, mask RCNN 의 fine-tuning에 대한 강점에도* 불구하고, fine-tuning works well for the models with pre-training to converge to near optimum. Models trained from scratch can catch up with their fine-tuning counterparts standard COCO training set, ImageNet pretraining mainly helps to speed up convergence on the target task early on in training, but shows little or no evidence of improving the final detection accuracy. 실험**