穩定縮放與超參數轉移的最佳實踐
模型規模與基礎設定:Cerebras GPT 訓練了涵蓋 0.1B(1 億)到 13B(130 億)參數的一系列模型,並採用了 Chinchilla 的數據縮放比例進行訓練。

muP 參數化的實證與實作:他們的研究核心是驗證 muP (Maximal Update Parameterization) 能夠讓模型放大時更加穩定,避免了傳統參數化在放大時出現的劇烈震盪與不穩定。在具體實作上,除了 embedding layer 外,其餘 layrer 的權重初始化變異數以及逐層 learning rate,皆根據模型寬度 (1/width) 進行了縮放。
極端代理模型搜索 (Proxy Model Search):在選擇超參數時,他們採用了極具侵略性的縮小策略。他們先在一個僅有 40M(4000 萬)參數的微型代理模型上進行了高達 200 次的隨機超參數網格搜索,找出最佳超參數後,再利用 muP 使最佳 learning rate 保持不變的特性,直接將這些超參數沿著縮放定律轉移到 2.7B 甚至 13B 的大型模型上。

高效能小模型與 WSD learning rate scheduler
模型表現與縮放策略:MiniCPM 是清華大學團隊開發的高效能小型語言模型(參數量介於 1.2B 到 2.4B),儘管體積小,其效能卻能擊敗多數 2B 模型,甚至與現代的 7B 模型匹敵。該團隊的縮放策略核心在於:保持模型架構的長寬比 (aspect ratio) 不變、使用 muP (Maximal Update Parameterization) 處理參數初始化以穩定縮放。他們透過一系列在 9M 到 0.5B 的極小代理模型上進行實驗,來擬合並預測大模型的最佳設定(註:最大的代理模型 0.5B 與實際訓練的 2.4B 模型之間,存在約 5 倍的規模差距,顯示了他們對預測外插的信心)。

techique 1: muP to stabilize scaling Scale_emb = 12, scale_depth = 1.4, init_std = 0.1, lr =0.01

Scaling recipe / strategy
使用 muP 做 initialization,固定 aspect ratio, 放大整體的 model size.

最佳 batch size 與 learning rate 分析:團隊依賴小規模代理模型(9M 到 0.5B)的實驗數據來推導大型模型的最佳設定:

WSD learning rate scheduler (Warm-up Stable Decay):這是 MiniCPM 解決「估算 Chinchilla scaling law 成本過高」的一大創舉。傳統的 cosine scheduler 會因為目標資料量(訓練步數)的不同而改變衰減曲線,導致研究員必須為每個資料量「從頭訓練」一個專屬模型。MiniCPM 推廣了 WSD schedule,將學習率分為「預熱、平坦穩定、快速衰減」三個階段。研究人員只需訓練一個具有極長「穩定階段」的模型,接著在不同步數提取 checkpoints,並分別進行短暫的衰減訓練(衰減期約佔 10%)。這樣就能以幾乎一次完整訓練的線性成本 ($O(mC)$),收集到多組不同資料量下的 terminal loss(且表現能匹配甚至超越 cosine schedule),大幅提升了資料縮放定律分析的效率。

極高的資料模型比:具備了高效的 WSD schedule 後,團隊採用 Chinchilla 論文中的 lower envelope method (method 1) 與「joint fit (method 3)」進行大規模數據分析。透過 method 3 的 joint fit,MiniCPM 團隊得出了一個非常高的最佳資料對參數比例 — 高達 192 個 token 對 1 個參數,這遠遠超出了原始 Chinchilla 論文中廣泛流傳的 20 倍經驗法則。團隊主張,像 LLaMA 這樣先進的架構,本就能從更大量的資料中獲益,只要仔細最佳化,資料比例應該遠高於過去的標準。


最終他們所建立的縮放預測曲線,在廣泛的測試集與模型尺寸上,都能相當精準地預測真實訓練的損失表現。
