筆記

Scaling Law Case Studies

Cerebras GPT

穩定縮放與超參數轉移的最佳實踐

模型規模與基礎設定：Cerebras GPT 訓練了涵蓋 0.1B（1 億）到 13B（130 億）參數的一系列模型，並採用了 Chinchilla 的數據縮放比例進行訓練。
muP 參數化的實證與實作：他們的研究核心是驗證 muP (Maximal Update Parameterization) 能夠讓模型放大時更加穩定，避免了傳統參數化在放大時出現的劇烈震盪與不穩定。在具體實作上，除了 embedding layer 外，其餘 layrer 的權重初始化變異數以及逐層 learning rate，皆根據模型寬度 (1/width) 進行了縮放。
極端代理模型搜索 (Proxy Model Search)：在選擇超參數時，他們採用了極具侵略性的縮小策略。他們先在一個僅有 40M（4000 萬）參數的微型代理模型上進行了高達 200 次的隨機超參數網格搜索，找出最佳超參數後，再利用 muP 使最佳 learning rate 保持不變的特性，直接將這些超參數沿著縮放定律轉移到 2.7B 甚至 13B 的大型模型上。

MiniCPM

高效能小模型與 WSD learning rate scheduler

模型表現與縮放策略：MiniCPM 是清華大學團隊開發的高效能小型語言模型（參數量介於 1.2B 到 2.4B），儘管體積小，其效能卻能擊敗多數 2B 模型，甚至與現代的 7B 模型匹敵。該團隊的縮放策略核心在於：保持模型架構的長寬比 (aspect ratio) 不變、使用 muP (Maximal Update Parameterization) 處理參數初始化以穩定縮放。他們透過一系列在 9M 到 0.5B 的極小代理模型上進行實驗，來擬合並預測大模型的最佳設定（註：最大的代理模型 0.5B 與實際訓練的 2.4B 模型之間，存在約 5 倍的規模差距，顯示了他們對預測外插的信心）。

techique 1: muP to stabilize scaling Scale_emb = 12, scale_depth = 1.4, init_std = 0.1, lr =0.01

Scaling recipe / strategy

使用 muP 做 initialization，固定 aspect ratio, 放大整體的 model size.

最佳 batch size 與 learning rate 分析：團隊依賴小規模代理模型（9M 到 0.5B）的實驗數據來推導大型模型的最佳設定：
- 最佳 batch size：團隊沿用 Kaplan (2020) 的分析框架，在多個小模型上觀察發現「batch size」與「loss」呈現清晰的對數-線性 (log-linear) 關係。當我們希望達到的 target loss 越低時，batch size 應該呈現多項式級數增加。
- 最佳 learning rate：實驗數據完美印證了 muP 理論。即使模型規模從 0.04B 跨度到 2.1B，在 muP 的參數化下，最佳 learning rate 依舊穩定保持在 $10^{−2}$ 附近。這證明了 muP 能將 learning rate 的偏移降到最低，避免重新調參的龐大計算成本。
WSD learning rate scheduler (Warm-up Stable Decay)：這是 MiniCPM 解決「估算 Chinchilla scaling law 成本過高」的一大創舉。傳統的 cosine scheduler 會因為目標資料量（訓練步數）的不同而改變衰減曲線，導致研究員必須為每個資料量「從頭訓練」一個專屬模型。MiniCPM 推廣了 WSD schedule，將學習率分為「預熱、平坦穩定、快速衰減」三個階段。研究人員只需訓練一個具有極長「穩定階段」的模型，接著在不同步數提取 checkpoints，並分別進行短暫的衰減訓練（衰減期約佔 10%）。這樣就能以幾乎一次完整訓練的線性成本 ($O(mC)$)，收集到多組不同資料量下的 terminal loss（且表現能匹配甚至超越 cosine schedule），大幅提升了資料縮放定律分析的效率。
極高的資料模型比：具備了高效的 WSD schedule 後，團隊採用 Chinchilla 論文中的 lower envelope method (method 1) 與「joint fit (method 3)」進行大規模數據分析。透過 method 3 的 joint fit，MiniCPM 團隊得出了一個非常高的最佳資料對參數比例 — 高達 192 個 token 對 1 個參數，這遠遠超出了原始 Chinchilla 論文中廣泛流傳的 20 倍經驗法則。團隊主張，像 LLaMA 這樣先進的架構，本就能從更大量的資料中獲益，只要仔細最佳化，資料比例應該遠高於過去的標準。

最終他們所建立的縮放預測曲線，在廣泛的測試集與模型尺寸上，都能相當精準地預測真實訓練的損失表現。