第4单元—使用PyTorch的策略梯度

深度 Q 学习, 在这种基于价值的深度强化学习算法中，我们使用深度神经网络来近似每个状态下每个可能动作的不同 Q 值。

什么是基于策略的方法?

强化学习的主要目标是找到能最大化预期累积奖励的最优策略$π∗$, 强化学习基于奖励假设：所有目标都可以描述为预期累积奖励的最大化。

在基于价值的算法中，学习一个价值函数。
- 其核心思想是：一个最优的价值函数将导致一个最优策略$π∗$
- 目标是使预测值与目标值之间的损失最小化，以逼近真实的状态-动作价值函数。
- 有一个策略，但它隐式存在——它直接由价值函数生成。例如，在 Q-Learning 中，我们使用了(epsilon-)贪婪策略。
基于策略的方法中，我们直接学习来近似$π∗$,而无需学习价值函数。
- 其思想是对策略进行参数化。例如，使用神经网络$π_θ$ ，该策略将输出一个动作的概率分布（随机策略）
```
  ![image.png](attachment:6b7f9793-1e3e-4a03-8f7d-ddf7dd0232e5:image.png)
```
- 目标是通过梯度上升来最大化参数化策略的性能。
- 控制参数θ，它将影响状态的动作分布。
- 由于基于策略的方法，可以直接优化策略$π_θ$, 以输出一个导致最佳累积回报的动作概率分布$π_θ(a∣s)$ 为此，定义了一个目标函数$J(θ)$ ，即预期累积奖励，并且希望找到最大化这个目标函数的值θ
Actor-Critic 方法，是一种基于值的方法和基于策略的方法的组合。

1. 基于策略的方法（非梯度类）

优化逻辑：通过 “试错 + 评价” 间接调整策略参数，不计算目标函数的梯度。例如：
- 爬山法：先尝试一个参数变化，若回报提升则保留，否则放弃；
- 进化策略：模拟生物进化，随机生成多个策略参数（“种群”），保留回报高的参数并随机变异，迭代优化。
特点：
- 不需要目标函数可导，适用范围广；
- 但优化效率低，容易陷入局部最优。

2. 策略梯度方法

优化逻辑：直接计算目标函数 J (θ)（通常是累积回报）对参数 θ 的梯度，然后沿着梯度方向更新参数（梯度上升，因为要最大化回报）。
- 核心公式：θ ← θ + α・∇θJ (θ)，其中 α 是学习率，∇θJ (θ) 是梯度。
特点：
- 利用梯度信息，优化方向更明确，效率更高；
- 但要求目标函数可导，需要对策略进行参数化（如用神经网络表示策略）。

在基于策略的方法中，优化通常是在线策略，因为每次更新时，只使用由我们最新版本的$π_θ$收集的数据（轨迹）

区别在于如何优化参数$θ$: