第 1 单元—深度强化学习简介 | Notion

深度 RL 是一种机器学习,Agents通过执行动作和查看结果来学习如何在环境中的行为。

什么是强化学习？

大局观

强化学习: （AI）将通过与环境交互（通过反复试验）并获得奖励（负面或正面）作为执行动作的反馈来从环境中学习。

正式定义

强化学习是一个解决控制任务（也称为决策问题）的框架，通过构建Agent，反复试验与环境交互并接收奖励（积极或消极）作为独特反馈，从而从环境中学习。

强化学习框架

RL 流程

代理从环境接收状态 $S_0$ — 收到游戏的第一帧（环境）。
根据该状态$S_0$，代理执行动作$A_0$— Agent将向右移动。
环境进入新状态$S_1$ — 新帧。
环境给Agent奖励$R_1$——（积极奖励 +1）。

RL 循环输出一系列状态、动作、奖励和下一个状态。

代理的目标是最大化其累积奖励，称为预期回报。

奖励假说：强化学习的中心思想

⇒ 为什么智能体的目标是最大化预期收益？

因为RL是基于奖励假说的，即所有目标都可以被描述为预期收益（预期累积奖励）的最大化。

马尔可夫特性