<aside> 🗂️
原數據條目:‣
</aside>
概述了 LLM 訓練過程的三個主要階段(LLM Training Pipeline):預訓練 (pre-training)、推理(reasoning)、**後訓練 (classic post-training/RLHF),**花的資源(問題量、時間和金錢)是從第一階段開始遞減,講者提及後兩者常會併在一起稱為後訓練。
爾後,講者談論訓練 LLM 的五大關鍵因素: 架構 (Architecture)、訓練演算法與損失函數 (Training algorithm and loss)、數據和 RL 環境 (Data and RL environment)、評估 (Evaluation,重要!)、系統與基礎設施 (Systems and Infrastructure)。在實務應用中,後三者為重點。
核心目標為預測所有資料的下一個詞,但其瓶頸為有好的 data 和計算資源(不是在家用 GPU 就可以完成的任務)。
預訓練可以分成三個層面探討:
自回歸語言模型 (autoregressive language model) - 模型的作用是透過參數化近似 (parametric approximation) 的方式,模擬統計學中的詞語計數,來預測下一個詞彙,以下是訓練流程: