🧠 Paper Summary

🔍 1. 연구 목적 (Motivation)

기존 RNN, LSTM 기반 시퀀스 모델은 순차적 연산 구조 때문에 병렬화가 어렵고, 긴 문장 의존 관계(Long-range dependency)를 학습하기 어렵다.
논문은 이러한 한계를 해결하기 위해, 완전히 Attention 메커니즘만으로 구성된 모델을 제안한다.
즉, “Recurrent 구조 없이도 시퀀스 데이터를 잘 처리할 수 있는가?”에 대한 답을 제시한다.

⚙️ 2. 주요 기여 (Contributions)

① 완전한 Attention 기반 구조 제안: RNN과 CNN을 제거하고 오직 Attention으로 구성된 Transformer를 처음으로 제시.
② Scaled Dot-Product Attention / Multi-Head Attention 도입: 단일 attention의 한계를 극복하기 위해 여러 attention head를 병렬 학습.
③ Positional Encoding 제안: 순서를 잃은 attention 구조에서 단어 간 순서를 표현하기 위해 sin/cos 기반 위치 인코딩 사용.
④ 병렬화와 효율적 학습: GPU 병렬 처리에 최적화되어 학습 속도를 대폭 향상.
⑤ BLEU 점수 향상: WMT 2014 English–German 번역에서 기존 SOTA보다 높은 BLEU 성능을 달성.

🧩 3. 모델 구조 / 방법론 (Method)

📐 전체 구조

Encoder-Decoder 아키텍처
- 각 부분은 Multi-Head Self-Attention + Position-wise Feed Forward Network (FFN) 로 구성.
- Encoder 6층, Decoder 6층 쌓은 형태로 구성.

⚙️ 핵심 구성 요소

(1) Scaled Dot-Product Attention

Query Q, Key K, Value V 를 이용해 attention 계산:

$$ Attention(Q,K,V)=softmax(dkQKT)V $$