Attention Approximates Sparse Distributed Memory

영상 요약

Attention Algorithm은 Sparse Distributed Memory라는 인간 기억에 대한 수학적 모델의 analogy를 함의하고 있다. 특히 중간에 들어가는 softmax 연산은 왜 쓰는지 잘 몰랐는데 그 이유에 대해 설명한다.