深度 Q 学习, 在这种基于价值的深度强化学习算法中,我们使用深度神经网络来近似每个状态下每个可能动作的不同 Q 值。

强化学习的主要目标是找到能最大化预期累积奖励的最优策略$π∗$, 强化学习基于奖励假设:所有目标都可以描述为预期累积奖励的最大化。
在基于价值的算法中,学习一个价值函数。
基于策略的方法中,我们直接学习来近似$π∗$,而无需学习价值函数。

目标是通过梯度上升来最大化参数化策略的性能。

控制参数θ,它将影响状态的动作分布。
由于基于策略的方法,可以直接优化策略$π_θ$, 以输出一个导致最佳累积回报的动作概率分布$π_θ(a∣s)$ 为此,定义了一个目标函数$J(θ)$ ,即预期累积奖励,并且希望找到最大化这个目标函数的值θ
Actor-Critic 方法,是一种基于值的方法和基于策略的方法的组合。
1. 基于策略的方法(非梯度类)
2. 策略梯度方法
优化逻辑:直接计算目标函数 J (θ)(通常是累积回报)对参数 θ 的梯度,然后沿着梯度方向更新参数(梯度上升,因为要最大化回报)。
特点:
在基于策略的方法中,优化通常是在线策略,因为每次更新时,只使用由我们最新版本的$π_θ$收集的数据(轨迹)
区别在于如何优化参数$θ$: