https://github.com/a1024053774/RL_Boot/blob/master/Hands-on_Learning_RL/Chapter03/exercise.ipynb

3.1 简介

马尔可夫决策过程包含状态信息以及状态之间的转移机制

要用强化学习去解决一个实际问题，第一步要做的事情就是把实际问题抽象为一个马尔可夫决策过程

3.2 马尔可夫过程

3.2.1 随机过程

随机过程（stochastic process）是概率论的“动力学”部分。

<aside> 💡

静态概率论研究的是“某一时刻”或“一次实验”的结果。
随机过程研究的是“随时间推移、系统状态不断演化”的过程，这种“演化”体现了系统的动力学特性。 </aside>

在随机过程中，随机现象在某时刻t的取值是一个向量随机变量，用$S_t$表示,所有可能的状态组成集合$S$ 将已知的历史信息$S_1, S_2, \dots, S_t$时下一个时刻状态为$S_{t+1}$的概率表示成$P\left( S_{t+1} \mid S_1, S_2, \dots, S_t \right)$

3.2.2 马尔可夫性质（Markov property）

当且仅当某时刻的状态只取决于上一时刻的状态时，一个随机过程被称为具有马尔可夫性质

$P\left( S_{t+1} \mid S_t \right)= P(S_{t+1} | S_1, S_2, \dots, S_t)$ 下一个状态只取决于当前状态，而不会受到过去状态的影响

<aside> 💡

具有马尔可夫性并不代表这个随机过程就和历史完全没有关系。

因为虽然t+1时刻的状态只与时刻t的状态有关，但是t时刻的状态其实包含了t-1时刻的状态的信息，通过这种链式的关系，历史的信息被传递到了现在。
马尔可夫性可以大大简化运算，因为只要当前状态可知，所有的历史信息都不再需要了，利用当前状态信息就可以决定未来。 </aside>

3.2.3 马尔可夫过程

定义

马尔可夫过程是具有马尔可夫性质的随机过程，也称为马尔可夫链。其核心特征是：

当前状态只依赖于前一个状态，而与更早的状态无关。

我们通常用元组 $(S, P)$ 描述一个马尔可夫过程：

( $S$ )：有限状态集合
( $P$ )：状态转移矩阵（State Transition Matrix）