5.1 简介

动态规划算法要求马尔可夫决策过程是已知的，即要求与智能体交互的环境是完全已知的（例如迷宫或者给定规则的网格世界）。

对于大部分强化学习现实场景，马尔可夫决策过程的状态转移概率是无法写出来的。

无模型的强化学习智能体直接使用和环境交互的过程中采样到的数据来学习

在线策略学习
- 在线策略学习要求使用在当前策略下采样得到的样本进行学习，一旦策略被更新，当前的样本就被放弃了，就好像在水龙头下用自来水洗手；
离线策略学习
- 离线策略学习使用经验回放池将之前采样的样本收集起来再次利用，就好像使用脸盆接水后洗手。
- 离线策略学习能够更好地利用历史数据
- 具有更小的样本复杂度

5.2 时序差分方法

与蒙特卡洛算法的相似之处：可以从样本数据中学习，不需要事先知道环境

与动态规划算法的相似之处：根据贝尔曼方程，用后续状态的价值估计来更新当前状态的价值估计。

回顾一下蒙特卡洛方法对价值函数的增量更新方式:

$V(s_t) \leftarrow V(s_t) + \alpha[G_t - V(s_t)]$