<aside> 📎 간단 요약
앞뒤의 단어를 통해 중앙의 단어를 예측하는 방법
앞뒤의 단어들을 One-Hot Vector로 변경한 후, 이를 임베딩 벡터로 변환하여 가중치를 학습, 이후 임베딩 벡터를 One-Hot Vector의 길이로 변경한 후 중앙의 단어에 대한 One-Hot Vector와 CE를 통해 loss를 계산한다.
</aside>
단어를 예측하기 위해 앞뒤로 몇 개의 단어(n)를 사용할 지 정한다.
Multi-Class Classification
Input을 통해 One-Hot Vector의 각 원소가 0인지 1인지 예측한다.
학습 파라미터
$W_{V\times M}$: One-Hot Vector을 임베딩 벡터로 변환하는 행렬
$W'_{M\times V}$: 임베딩 벡터를 One-Hot Vector의 길이로 변환하는 행렬
학습과정
Softmax 함수를 통해 벡터 $z$를 확률 벡터로 변환한다.
출력($\hat y$)을 평가하기 위해 중앙 단어의 One-Hot Vector($y$)와 CE를 계산한다.