RL_Boot/Hands-on_Learning_RL/Chapter05/TD.ipynb at master · a1024053774/RL_Boot

5.1 简介

动态规划算法要求马尔可夫决策过程是已知的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。

对于大部分强化学习现实场景,马尔可夫决策过程的状态转移概率是无法写出来的。

无模型的强化学习智能体直接使用和环境交互的过程中采样到的数据来学习


5.2 时序差分方法

与蒙特卡洛算法的相似之处:可以从样本数据中学习,不需要事先知道环境

与动态规划算法的相似之处:根据贝尔曼方程,用后续状态的价值估计来更新当前状态的价值估计。


回顾一下蒙特卡洛方法对价值函数的增量更新方式:

$V(s_t) \leftarrow V(s_t) + \alpha[G_t - V(s_t)]$