Paper
문서 링크
- 컴퓨터 비전 분야에서는 오래전부터 Hand-crafted Feature 를 사용하는데 익숙했다.
- 이런 식으로 이미지의 정보를 추출하는 방법은 과거 이미지 프로세싱 분야에서 인기를 얻어지만 요구되는 문제들의 복잡성이 증가함에 따라 점차 CNN 분야로 완전히 그 영광을 넘기게 되었다.
- 이런 문제들을 타계하기 위해 비지도 학습(unsupervised learning) 방식이 제안되기도 했다.
- 자기 지도 학습(self-supervised learning)은 비지도 학습 방법론 중 한가지 특별한 형태로 고려할 수 있다.
- Transformer 는 최근 NLP 에서 각광받은 기술로 CNN 에도 영향을 주고 있다.
- 이제 이 논문의 소개를 진행한다.
Vision Transformer
- NLP 쪽에서 영감을 받아 Transformer 기법을 이미지 모델에도 적용

- 원래 Transformer 는 토큰 Embedding 을 1D 데이터로 입력 받지만 2D 인 이미지를 입력받기 위해 이미지를 Flatted 된 2D 패치로 입력받게 된다.
- BERT 의 [class] 토큰과 유사하게 학습 가능한 별도의 Embedding 토큰이 추가되어 있다.
- Position embedding 도 추가되어 있다.
- Transformer Encoder 를 보면 LN(LayerNorm)과 Residual connect가 사용된 것을 확인할 수 있다. MLP 에서는 GELU가 사용된다.
- 좀 더 자세한 수식은 다음을 참고하자.