筆記

Scaling Law Case Studies

Cerebras GPT

穩定縮放與超參數轉移的最佳實踐

MiniCPM

高效能小模型與 WSD learning rate scheduler

techique 1: muP to stabilize scaling Scale_emb = 12, scale_depth = 1.4, init_std = 0.1, lr =0.01

image.png

Scaling recipe / strategy

使用 muP 做 initialization,固定 aspect ratio, 放大整體的 model size.

image.png