筆記
投影片開頭相當幽默,直接預示著這一節不會輕鬆

這節課要學習的內容包括:
- 快速回顧標準的 transofrmer 設計
- 現代的 LLM 有哪些常見的共通點
- 有哪些常見的 architecture 和 training process
Recap
先用一張圖快速回顧原始的 transformer 設計

下圖則是我們會在作業中會實作的架構

可以看到主要的差異有
- LayerNorm 的時機:從原本的在輸入 attention layer 以及 feed forward layer 後才做,改成在輸入前就做
- Position embedding: 從原本使用 sine, cosine function 進行 absoulute position embedding ,變成 Rotary position embedding
- Activation functions: 原本 feed forward layer 的 activation function 是採用 ReLU ,現在則改為 SwiGLU
- No bias term:Linear layer 以及 Layernorm 都不再加入bias term
Architecture