深度 RL 是一种机器学习,Agents通过执行动作查看结果来学习如何在环境中的行为

什么是强化学习?

大局观

强化学习: (AI) 将通过与环境交互(通过反复试验)并获得奖励(负面或正面)作为执行动作的反馈来从环境中学习。

正式定义

强化学习是一个解决控制任务(也称为决策问题)的框架,通过构建Agent,反复试验与环境交互并接收奖励(积极或消极)作为独特反馈,从而从环境中学习。

强化学习框架

RL 流程

image.png

image.png

RL 循环输出一系列状态、动作、奖励和下一个状态。

image.png

代理的目标是最大化其累积奖励,称为预期回报。

奖励假说:强化学习的中心思想

⇒ 为什么智能体的目标是最大化预期收益?

因为RL是基于奖励假说的,即所有目标都可以被描述为预期收益(预期累积奖励)的最大化

马尔可夫特性