深度思考
打造 Reasoning Model 的方法
不用微調參數
更強的思維鏈 (CoT Prompting??)
給模型推論工作流程 (亂槍打鳥??)
需要微調參數
- Post-Training 的特例,教會 Foundation Model Reasoning 的能力
教模型推理過程 (Imitation Learning)
以結果為導向學習推理 (RL)
- 這四個方法可以同時使用
- RL 是強化 Model 原有的能力
- RL for LLMs
- DeepSeek-V3-Base 本來就有 AHA 的能力
DeepSeek-R1