Attention
sequence transduction model
BLEU score
Residual learning
Residual dropout
label smoothing

<그림1 : Recurrence model - encoder의 처리방식>
병렬적인 처리가 불가능한 이유는 반복적인 회귀로 단어마다 attention을 적용했기 때문 ⇒ 회귀를 없애고 오로지 attention만 이용하는 model을 만들자!
한 토큰씩 입력을 하지 않고 문장 전체를 입력받음 ⇒ 행렬 계산이 가능 = 병렬적으로 처리
Self-attention : 각 토큰 간 attention을 하여 각 단어간의 가중치를 계산하는 것.