深度 Q 学习, 在这种基于价值的深度强化学习算法中,我们使用深度神经网络来近似每个状态下每个可能动作的不同 Q 值

image.png

什么是基于策略的方法?

强化学习的主要目标是找到能最大化预期累积奖励的最优策略$π∗$, 强化学习基于奖励假设:所有目标都可以描述为预期累积奖励的最大化。

基于价值、基于策略和 Actor-critic 方法

基于策略和策略梯度方法的区别

1. 基于策略的方法(非梯度类)

2. 策略梯度方法

在基于策略的方法中,优化通常是在线策略,因为每次更新时,只使用由我们最新版本的$π_θ$收集的数据(轨迹)

区别在于如何优化参数$θ$: