1.1 简介

决策和预测任务不同,决策往往会带来“后果”,在未来的时间点做出进一步的决策。实

现序贯决策的机器学习方法就是—强化学习(reinforcement learning)。

1.2 什么是强化学习

强化学习是机器通过与环境交互实现目标的一种计算方法

机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器→目标是最大化在多轮交互过程中获得的累积奖励的期望

image.png

面向决策任务的强化学习和面向预测任务的有监督学习在形式上的区别

1.3 强化学习的环境

环境是动态的, 随着某些因素的变化而不断演变.

对于一个随机过程,其最关键的要素就是状态以及状态转移的条件概率分布

在环境中加入智能体的动作**, 环境的下一刻状态的概率分布将由当前状态智能体的动作共同决定**

$\text{下一状态} \sim P(\,\cdot \mid \text{当前状态},\ \text{智能体的动作}\,)$

智能体决策的动作作用到环境环境发生状态改变,而智能体接下来则需要在新的状态下进一步给出决策

每一轮状态转移都伴随着两方面的随机性: