7: DeepSeek-R1 這類大型語言模型是如何進行「深度思考」（Reasoning）的？ | Notion

深度思考

Reasoning (深度思考、推理)

打造 Reasoning Model 的方法

不用微調參數

更強的思維鏈 (CoT Prompting？？)

給模型推論工作流程 (亂槍打鳥？？)

需要微調參數

Post-Training 的特例，教會 Foundation Model Reasoning 的能力

教模型推理過程 (Imitation Learning)

以結果為導向學習推理 (RL)

這四個方法可以同時使用
RL 是強化 Model 原有的能力
- RL for LLMs
- DeepSeek-V3-Base 本來就有 AHA 的能力

DeepSeek-R1

訓練流程