Encoder의 hidden state h1, h2, h3
이 때, Attention Score $\alpha$의 총합은 1이 되어야 하므로, Softmax를 취한다.
Encoder의 hidden state와 Attention score를 곱하여 Context vector를 계산한다.
이렇게 계산한 Context Vector을 Decoder에서 활용한다.
$y_t$를 예측하기 위해 $s_{t-1}$, $y_{t-1}$, $c_t$가 필요하다.
여기서 $c_t$는 $s_{t-1}$과 $h_t$간의 amount of well matched의 벡터에 해당한다.
$s_t$는 $y_t$를 예측하기 위해 $h_{t'}$에 얼마나 주목(attention)할 것인가를 반영한다.
이 때 비교 기준인 s_t-1을 Query, 비교 대상인 h들을 Key, 그리고 출력되는 값을 Value라고 한다.