1) Sinusoidal embeddings
위치 정보를 학습하지 말고, 수식으로 고정해서 넣자

- 한 위치의 m = 여러 주파수의 사인/코사인 값 묶음
- 차원마다 다른 스케일의 위치 감각을 가짐

- 두 위치 m, n을 나란히 놓고 비교했을 때, 절대 위치값은 다르지만, 같은 주파수 구조를 공유한다.
- → 서로 비교 가능한 구조, attention에서 dot product로 관계 계산 가능

- 위 수식 : 두 점(위치)의 차이(a-b)를, 그 두 점의 sin/cos 값 곱으로 표현할 수 있다
- 즉, “거리(차이)를 직접 계산하지 않아도, 각 위치에서 만든 값들 (sin, cos)만 있으면 차이를 만들 수 있다는 것을 보여줌
- 이걸 positional embedding에 적용해보면, 위치 m, n에 대해 한 쌍(pair)이 생긴다. 두 벡터를 내적하면 위 수식과 비슷하게 나옴
- → 두 위치의 positional encoding을 내적하면, “상대 거리(m−n)”의 함수가 된다.

전체 positional embedding은 2차원짜리 한 쌍이 아니라, i=0..(d/2-1)까지 여러 주파수 ωᵢ를 가진 sin/cos 쌍들을 쭉 이어붙인 벡터이다.
그래서 PE_m과 PE_n의 내적은 → 각 주파수 쌍의 내적들이 합쳐진 형태가 된다.