A contrastive loss
$$ \mathcal{L}q=-\log\frac{\exp(q \cdot k+ / \tau)}{\sum^K_{i=0}\exp(q \cdot k_i / \tau)} \tag{1} $$
queue를 사용하는 것은 dictionary를 크게 만들 수 있지만, back-propagation 때문에 다루기 힘들 수 있음 → gradient가 queue의 모든 sample에 전파되기 때문
momentum update 제안
$$ \theta_k \leftarrow m\theta_k + (1-m)\theta_q \tag{2} $$
end-to-end
memory bank
query와 key로 구성
query와 key는 encoder에 의해 encoding ($f_q$, $f_k$)