介绍

深入探讨强化学习方法之一:基于价值的方法,并学习我们的第一个 RL 算法:Q-Learning

训练两个智能体:

具体来说,我们将:

什么是RL?简短回顾

为了做出决策, 智能体通过与环境的交互、通过试错并接收奖励(正面或负面)作为独特的反馈来学习。

目标是最大化其预期累积奖励(基于奖励假设)

两种基于价值的算法

在基于价值的算法中,学习一个价值函数,该函数将状态映射到处于该状态时的预期价值

image.png

状态的价值: 智能体从该状态开始并按照我们的策略行动时能够获得的预期折扣回报

<aside> 💡

衡量在一个给定状态下起步、之后一直按某个策略行事,智能体未来能获得奖励的总和(加权折扣)。

</aside>