筆記

投影片開頭相當幽默，直接預示著這一節不會輕鬆

這節課要學習的內容包括：

Recap

先用一張圖快速回顧原始的 transformer 設計

下圖則是我們會在作業中會實作的架構

可以看到主要的差異有

LayerNorm 的時機：從原本的在輸入 attention layer 以及 feed forward layer 後才做，改成在輸入前就做
Position embedding: 從原本使用 sine, cosine function 進行 absoulute position embedding ，變成 Rotary position embedding
Activation functions: 原本 feed forward layer 的 activation function 是採用 ReLU ，現在則改為 SwiGLU
No bias term：Linear layer 以及 Layernorm 都不再加入bias term