https://github.com/a1024053774/RL_Boot/blob/master/Hands-on_Learning_RL/Chapter03/exercise.ipynb

3.1 简介

马尔可夫决策过程包含状态信息以及状态之间的转移机制

要用强化学习去解决一个实际问题,第一步要做的事情就是把实际问题抽象为一个马尔可夫决策过程

3.2 马尔可夫过程

3.2.1 随机过程

随机过程(stochastic process)是概率论的“动力学”部分。

<aside> 💡

在随机过程中,随机现象在某时刻t的取值是一个向量随机变量,用$S_t$表示,所有可能的状态组成集合$S$ 将已知的历史信息$S_1, S_2, \dots, S_t$时下一个时刻状态为$S_{t+1}$的概率表示成$P\left( S_{t+1} \mid S_1, S_2, \dots, S_t \right)$

3.2.2 马尔可夫性质(Markov property)

当且仅当某时刻的状态只取决于上一时刻的状态时,一个随机过程被称为具有马尔可夫性质

$P\left( S_{t+1} \mid S_t \right)= P(S_{t+1} | S_1, S_2, \dots, S_t)$ 下一个状态只取决于当前状态,而不会受到过去状态的影响

<aside> 💡

具有马尔可夫性并不代表这个随机过程就和历史完全没有关系。

3.2.3 马尔可夫过程

定义

马尔可夫过程是具有马尔可夫性质的随机过程,也称为马尔可夫链。其核心特征是:

当前状态只依赖于前一个状态,而与更早的状态无关。

我们通常用元组 $(S, P)$ 描述一个马尔可夫过程: