์ ๋ชฉ: Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
์ ์: Angelos Katharopoulos ์ธ (Idiap Research Institute, EPFL)
๊ฒ์ฌ: ICML 2020 (International Conference on Machine Learning)
1.1 ํต์ฌ ๋ฌธ์
Transformer์ ๊ณ ์ง์ ์ธ ๋ฌธ์ :
์ง๊ด์ ๋น์ : ๊ต์ค์ ํ์์ด 10๋ช ์์ผ๋ฉด ๋ชจ๋ ํ์ ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ธํ๋ ๊ฑด 45๋ฒ์ด์ง๋ง, ํ์์ด 100๋ช ์ด ๋๋ฉด? 4,950๋ฒ! ๐ฑ
1.2 ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด
์ ์๋ค์ ์ด๋ ๊ฒ ๋งํฉ๋๋ค:
"์ฐ๋ฆฌ๋ self-attention์ kernel feature map์ ์ ํ ๋ด์ ์ผ๋ก ํํํ๊ณ , ํ๋ ฌ ๊ณฑ์ ์ ๊ฒฐํฉ๋ฒ์น(associativity)์ ์ด์ฉํด์ ๋ณต์ก๋๋ฅผ O(Nยฒ)์์ **O(N)**์ผ๋ก ์ค์๋ค!"
๋ ๋๋ผ์ด ๋ฐ๊ฒฌ: