Intro

在第四单元中，学习了第一个基于策略的算法——Reinforce。

在基于策略的方法中，目标是通过不使用价值函数来直接优化策略。更具体地说，Reinforce 是策略梯度方法的一个子类的一部分。这个子类通过使用梯度上升来估计最优策略的权重来直接优化策略。

由于使用蒙特卡洛采样来估计回报（使用整个回合来计算回报），策略梯度估计中存在显著的方差。

<aside> 💡

蒙特卡洛回报估计

用整回合去感受一次策略的“全部后果”：不向未来做假设，不用引导（无自举），用多次完整经历来换取无偏估计。

定义与基本公式

回报定义： 从时刻 t开始到回合结束的累计折扣回报 $G_t = \sum_{k=t}^{T-1} \gamma^{k-t} \, R_{k+1}, \quad \gamma \in [0,1]$
目标： 估计 $V^\pi(s) = \mathbb{E}\pi[G_t \mid S_t=s], \qquad Q^\pi(s,a) = \mathbb{E}\pi[G_t \mid S_t=s, A_t=a]$

基于回合的价值估计

首次访问 MC（First-Visit）： 每个回合里，只有状态（或状态-动作）的第一次出现会被用于更新。方差略小，偏好较稳定的估计。 $V(s) \leftarrow \text{平均}\{\, G_t \;|\; \text{该回合中第一次访问 } s \text{的时刻 } t \,\}$
每次访问 MC（Every-Visit）： 状态（或状态-动作）在回合中的每一次出现都用于更新。利用率更高，样本效率更好，但方差更大。 $V(s) \leftarrow \text{平均}\{\, G_t \;|\; \text{该回合中所有访问 } s \text{的时刻 } t \,\}$
动作价值估计： 完全同理，将 $s$ 替换为 $(s,a)$即可得到 $Q(s,a)$的 MC 平均估计。 $Q(s,a) \leftarrow \text{平均}\{\, G_t \;|\; (S_t,A_t)=(s,a) \,\}$

控制：基于 Q 的 on-policy MC

策略评估： 用 MC 平均法估计 $Q^\pi(s,a)$。 $Q(s,a) \approx \frac{1}{N(s,a)} \sum_{i=1}^{N(s,a)} G_t^{(i)}$
策略改进： 用 $\epsilon-soft$ 贪心更新，确保持续探索。 $\pi_{\text{new}}(a\mid s)= \begin{cases} 1-\epsilon + \frac{\epsilon}{|\mathcal{A}|}, & a \in \arg\max_{a'} Q(s,a')\\[4pt] \frac{\epsilon}{|\mathcal{A}|}, & \text{otherwise} \end{cases}$
重复直至收敛： 评估—改进交替进行，最终逼近最优策略（在足够覆盖与采样下）。
异策略： 若用行为策略 $\mu$ 采样、目标策略 $\pi$ 评估，则需重要性采样权重 $w_{t:T-1}=\prod_{k=t}^{T-1}\frac{\pi(A_k\mid S_k)}{\mu(A_k\mid S_k)}$ 并用普通或加权重要性采样来形成无偏或方差更稳的估计。

策略梯度：REINFORCE（整回合回报）

无基线版本： $\nabla J(\theta) \approx \frac{1}{N}\sum_{i=1}^{N}\sum_{t=0}^{T_i-1} \nabla_\theta \log \pi_\theta(A_t^{(i)}\mid S_t^{(i)}) \, G_t^{(i)}$
带状态基线（降方差）： 以 $b(s)\approx V^\pi(s)$ 为基线，不改变期望，仅降方差。 $\nabla J(\theta) \approx \frac{1}{N}\sum_{i,t} \nabla_\theta \log \pi_\theta(A_t^{(i)}\mid S_t^{(i)}) \,\big(G_t^{(i)} - b(S_t^{(i)})\big)$
特性： 无偏但高方差；整回合才更新；常与归一化、优势函数、熵正则等技巧搭配以稳训练。

实用要点

折扣与终止： 回合必须终止（或截断）；$\gamma$越小越重视近因，方差通常更低。
回报规范化： 对 $\{G_t\}$ 做标准化可稳定学习，尤其在策略梯度中。
探索保证： 使用 $\epsilon-soft$ 或温度控制，避免状态-动作对采样不足。
方差 vs. 偏差： MC 无偏高方差；时序差分（TD）有偏低方差。可按任务特性折中或混合（如 GAE）。
异策略时慎重： 重要性采样可能方差爆炸；可做截断或使用加权 IS。

代码示例（Python/NumPy）

import numpy as np

def mc_returns(rewards, gamma):
    # 输入一条回合的奖励序列 [R1, R2, ..., RT]
    T = len(rewards)
    G = np.zeros(T, dtype=float)
    g = 0.0
    for t in reversed(range(T)):
        g = rewards[t] + gamma * g
        G[t] = g
    return G  # [G0, G1, ..., G_{T-1}]

# 首次访问 MC 估计 V(s)
from collections import defaultdict

def first_visit_mc_value(episodes, gamma=0.99):
    # episodes: 列表，每个元素为 [(s0,a0,r1), (s1,a1,r2), ..., (s_{T-1}, a_{T-1}, r_T)]
    returns_sum = defaultdict(float)
    returns_count = defaultdict(int)
    V = defaultdict(float)

    for ep in episodes:
        states = [s for (s, a, r) in ep]
        rewards = [r for (s, a, r) in ep]
        G = mc_returns(rewards, gamma)

        visited = set()
        for t, s in enumerate(states):
            if s in visited:
                continue  # 首次访问
            visited.add(s)
            returns_sum[s] += G[t]
            returns_count[s] += 1
            V[s] = returns_sum[s] / max(1, returns_count[s])
    return V

# REINFORCE（带基线）
import numpy as np

def reinforce_update(log_probs, values, rewards, gamma=0.99, lr=1e-3):
    # log_probs: [log πθ(a_t|s_t)] 的列表（Tensor/ndarray）
    # values:    基线 b(s_t) ≈ V(s_t) 的列表（同框架张量）
    # rewards:   [R1, R2, ..., RT]
    G = mc_returns(rewards, gamma)

    # 优势
    advantages = G - np.array(values)

    # 目标：最大化 sum_t logπ * A_t  等价于最小化其负值
    loss = -(np.array(log_probs) * advantages).sum()

    # 伪代码：反向传播与参数更新（具体取决于你用的框架）
    # loss.backward(); optimizer.step()
    return float(loss)

</aside>

研究 Actor-Critic 方法，结合基于值和基于策略的混合架构，通过以下方式帮助稳定训练并减少方差：

Actor，控制智能体如何行动（基于策略的方法）
Critic，衡量采取的动作有多好（基于值的方法）

强化学习中的方差问题

在Reinforce中，希望在轨迹中增加动作的概率，使其与回报成正比。

如果回报值高，提高（状态，动作）组合的概率。
如果回报值低，降低（状态，动作）组合的概率。

这个回报$R(τ)$ 是通过蒙特卡洛采样计算的, 收集一个轨迹并计算折扣回报，然后使用分数来增加或减少该轨迹中每个动作的概率。如果回报好，所有动作都会通过提高它们被采取的可能性来“强化”。

该方法的优势在于其无偏性, 由于并未估算回报率，因此仅使用实际获得的真实回报率。

$鉴于环境的随机性以及策略的随机性，轨迹可能导致不同的回报，从而导致高方差$

→相同的起始状态可能导致不同的回报→从相同状态开始的回报在不同回合中可能会有显著差异

解决方法是:使用大量轨迹来降低方差，单个轨迹引入的方差在总体上会减少，并提供“真实”的回报估计。

然而, $增加批次大小会显著降低样本效率$