1) Sinusoidal embeddings

위치 정보를 학습하지 말고, 수식으로 고정해서 넣자

위 수식 : 두 점(위치)의 차이(a-b)를, 그 두 점의 sin/cos 값 곱으로 표현할 수 있다
즉, “거리(차이)를 직접 계산하지 않아도, 각 위치에서 만든 값들 (sin, cos)만 있으면 차이를 만들 수 있다는 것을 보여줌
이걸 positional embedding에 적용해보면, 위치 m, n에 대해 한 쌍(pair)이 생긴다. 두 벡터를 내적하면 위 수식과 비슷하게 나옴
→ 두 위치의 positional encoding을 내적하면, “상대 거리(m−n)”의 함수가 된다.

전체 positional embedding은 2차원짜리 한 쌍이 아니라, i=0..(d/2-1)까지 여러 주파수 ωᵢ를 가진 sin/cos 쌍들을 쭉 이어붙인 벡터이다.

그래서 PE_m과 PE_n의 내적은 → 각 주파수 쌍의 내적들이 합쳐진 형태가 된다.