我个人没有RL的背景,所以简单速成一下,主要目的是把传统RL和当下LLM领域的各个过程联系起来。我这里主要整理博客。

人话讲解

数学讲解