Intro

在第六单元中,优势演员评论家(A2C),是一种结合了基于价值的方法基于策略的方法混合架构,通过减少方差来帮助稳定训练:


近端策略优化(PPO)是通过避免过大的策略更新提高智能体训练稳定性的架构

使用一个比率来表示当前策略与旧策略之间的差异,并将该比率裁剪到特定范围内$[1−ϵ,1+ϵ]$

这样做将确保策略更新不会过大,并且训练更加稳定。

本单元分为两部分:

PPO 的直观解释

PPO(近端策略优化)的思路是通过限制每个训练轮次中对策略的改动来提高训练稳定性:希望避免策略更新过大

有两个原因:

所以使用 PPO 时,保守地更新策略, 需要通过当前策略与先前策略之间的比率计算来衡量当前策略的变化程度

将这个比率剪裁在[1−ϵ,1+ϵ] 范围内,这意味着消除了当前策略偏离旧策略过远的动机(因此得名“近端策略”)。

Clipped Surrogate Objective Function

回顾:策略目标函数