筆記

GPUs in depth

Compute Scaling

語言模型的效能提升(predictable perf)很大程度上直接受益於運算能力的增加。更快的硬體、更好的利用率與平行運算技術是推動模型進步的主力。

image.png

早期 CPU 單一 thread 效能的提升(被稱為 Dennard scaling,透過縮小電晶體來提升時脈速度)在 1980 到 2000 年代已達到物理極限。

為了滿足大型語言模型對算力的無底洞需求,現代運算完全仰賴 GPU 的平行運算能力,這種能力在過去 10 年內成長了超過 1000 倍。可以說「沒有 GPU 的平行擴展,就沒有現在的 LLM

CPU 與 GPU 的核心設計差異

image.png

解剖GPU

Execution units

image.png

Memory

在 GPU 中,物理距離直接決定了記憶體的存取速度。資料離 SM 越近,存取就越快