我个人没有RL的背景,所以简单速成一下,主要目的是把传统RL和当下LLM领域的各个过程联系起来。我这里主要整理博客。
人话讲解
数学讲解