1.1 简介
决策和预测任务不同,决策往往会带来“后果”,在未来的时间点做出进一步的决策。实
现序贯决策的机器学习方法就是—强化学习(reinforcement learning)。
1.2 什么是强化学习
强化学习是机器通过与环境交互来实现目标的一种计算方法
机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器→目标是最大化在多轮交互过程中获得的累积奖励的期望

- 感知。智能体在某种程度上感知环境的状态
- 例如,下围棋的智能体感知当前的棋盘情况;
- 无人车感知周围道路的车辆、行人和红绿灯等情况;
- 机器狗通过摄像头感知面前的图像,通过力学传感器来感知地面的摩擦功率和倾斜度等情况。
- 智能体根据当前的状态计算出达到目标需要采取的动作的过程叫作决策。
- 例如,针对当前的棋盘决定下一颗落子的位置;
- 针对当前的路况,无人车计算出方向盘的角度和刹车、油门的力度;
- 针对当前收集到的视觉和力觉信号,机器狗给出4条腿的齿轮的角速度。
- 策略是智能体最终体现出的智能形式,是不同智能体之间的核心区别。
- 奖励。
- 环境根据状态和智能体采取的动作,产生一个标量信号作为**奖励反馈,**这个标量信号衡量智能体这一轮动作的好坏。
- 例如,围棋博弈是否胜利;无人车是否安全、平稳且快速地行驶;机器狗是否在前进而没有摔倒。
- 最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。
面向决策任务的强化学习和面向预测任务的有监督学习在形式上的区别
- 决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立任务。
- 如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务。
- 决策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最大奖励反馈的动作,在长期来看并不一定是最优的。
1.3 强化学习的环境
环境是动态的, 随着某些因素的变化而不断演变.
对于一个随机过程,其最关键的要素就是状态以及状态转移的条件概率分布。
在环境中加入智能体的动作**, 环境的下一刻状态的概率分布将由当前状态和智能体的动作来共同决定**
$\text{下一状态} \sim P(\,\cdot \mid \text{当前状态},\ \text{智能体的动作}\,)$
智能体决策的动作作用到环境,环境发生状态改变,而智能体接下来则需要在新的状态下进一步给出决策。
每一轮状态转移都伴随着两方面的随机性: