介绍
深入探讨强化学习方法之一:基于价值的方法,并学习我们的第一个 RL 算法:Q-Learning
训练两个智能体:
- Frozen-Lake-v1(非滑倒版本):在这个环境中,我们的智能体需要从起始状态(S)走到目标状态(G),只能走在冰面(F)上并避开坑洞(H)。
- 自动驾驶出租车:我们的智能体需要学会如何在城市中导航,将乘客从 A 点运送到 B 点。
具体来说,我们将:
- 学习基于价值的方法。
- 学习蒙特卡洛方法和时序差分学习的区别。
- 学习并实现我们的第一个强化学习算法:Q-Learning。
什么是RL?简短回顾
为了做出决策, 智能体通过与环境的交互、通过试错并接收奖励(正面或负面)作为独特的反馈来学习。
目标是最大化其预期累积奖励(基于奖励假设)
- 智能体的决策过程称为策略 π:给定一个状态,策略会输出一个动作或动作上的概率分布。也就是说,给定环境的一个观测,策略会提供一个智能体应该采取的动作(或每个动作的多个概率)。
- 目标是找到一个最优策略 π*,即一个能带来最佳预期累积奖励的策略。
- 找到这个最优策略,主要有两种强化学习方法:
- 策略方法:直接训练策略以学习在给定状态下应采取哪个动作。
- 价值方法:训练一个价值函数以学习哪个状态更有价值,并使用这个价值函数来采取更有价值的状态的动作。
两种基于价值的算法
在基于价值的算法中,学习一个价值函数,该函数将状态映射到处于该状态时的预期价值。

状态的价值: 智能体从该状态开始并按照我们的策略行动时能够获得的预期折扣回报。
<aside>
💡
衡量在一个给定状态下起步、之后一直按某个策略行事,智能体未来能获得奖励的总和(加权折扣)。
</aside>