Abstract

현재의 문장 번역 모델들은 RNN과 CNN이 주를 이루었다. 특히, encoder와 decoder에 attention 기법을 적용한 모델의 성능이 굉장히 뛰어났다.
RNN과 CNN은 시간이 병렬적인 처리가 어려워 시간과 메모리적으로 한계가 있어, 오로지 attention 기법만 적용한 “Transformer”란 모델 아키텍처을 만들었다.

용어정리

Attention

sequence transduction model

BLEU score

Residual learning

Residual dropout

label smoothing

RNN, LSTM, GRU 의 처리 방식 : 한 토큰씩 넣으며 순서에 대한 정보를 반복적으로 입력하여 지속적으로 hidden state의 값을 갱신함.
문제점 : 시퀸스의 길이만큼 신경망에 넣어야해서 병렬적인 처리 불가, 긴 문장 처리 어려움

<그림1 : Recurrence model - encoder의 처리방식>

                                    <그림1 : Recurrence model - encoder의 처리방식>

병렬적인 처리가 불가능한 이유는 반복적인 회귀로 단어마다 attention을 적용했기 때문 ⇒ 회귀를 없애고 오로지 attention만 이용하는 model을 만들자!
한 토큰씩 입력을 하지 않고 문장 전체를 입력받음 ⇒ 행렬 계산이 가능 = 병렬적으로 처리
Self-attention : 각 토큰 간 attention을 하여 각 단어간의 가중치를 계산하는 것.