1. Introduction

2. Related Work

contrastive learning은 이미지처럼 고차원 & 연속적인 inputs의 discrete dictionary를 만들기 위한 방법
- dictionary는 key가 random sampling되고 key encoder가 학습된다는 점에 있어서 dynamic
- Hypothesis : 좋은 특징은 많은 negative sample로 이루어진 큰 dictionary로 학습될 수 있고, dictionary key를 위한 encoder는 가능한 일정하게 유지된다.

dictionary를 data sample들의 queue로 유지
- 이전 mini-batch의 encoded key들을 재사용할 수 있음
- dictionary size는 mini-batch size보다 크게할 수 있고, 유연하고 독립적으로 hyperparameter로 설정할 수 있음
- 현재 mini-batch는 dictionary에 enqueue되고, 가장 오래 전 mini-batch는 dequeue됨

queue를 사용하는 것은 dictionary를 크게 만들 수 있지만, back-propagation 때문에 다루기 힘들 수 있음 → gradient가 queue의 모든 sample에 전파되기 때문
- naive solution : query encoder $f_q$를 key encoder $f_k$에 복제
  - 성능이 좋지 않음
  - 빠르게 변화하는 encoder가 key representation의 일관성을 줄이기 때문
momentum update 제안

$$ \theta_k \leftarrow m\theta_k + (1-m)\theta_q \tag{2} $$
- $\theta_k$ : the parameters of $f_k$
- $\theta_q$ : the parameters of $f_q$
- parameter $\theta_q$만 back-propagation로 업데이트됨
- $\theta_k$의 업데이트를 $\theta_q$보다 smooth하게 진행
- queue에 있는 key들은 다른 encoder에서 생성되었지만, encoder간 차이는 작아짐 ($m=0.999$처럼 큰 $m$이 $m=0.9$처럼 작은 $m$보다 좋은 성능을 보임)

end-to-end
- 현재 mini-batch에 있는 sample을 dictionary로 사용 → 하지만 dictionary size가 두배가 되어 GPU memory size에 문제가 생길 수 있음
- dictionary size를 크게 만들 수 있는 local position으로 부터 만들어지는 pretext task → 특정한 네트워크 디자인이 필요
memory bank
- dataset의 모든 sample의 representations으로 구성 → large dictionary size를 커버가능
- memory bank에 있는 sample들은 몇 epoch 전의 encoder의 representation으로 구성 → less consistent
- memory bank에 momentum update가 사용된 연구가 있음 → encoder가 아닌 same sample들에 대해 적용
3.3. Pretext Task
- query와 key로 구성
  - positive pair : 같은 이미지로 부터 나온 sample
    - 한 이미지를 다른 augmentation을 적용해서 two random "view"
  - negative pair : 그 외
- query와 key는 encoder에 의해 encoding ($f_q$, $f_k$)
  - 현 mini-batch에서 positive sample pair로 만들어지는 key, query를 encoding
  - negative sample들은 queue에서 뽑아냄