深度 RL 是一种机器学习,Agents通过执行动作和查看结果来学习如何在环境中的行为。
强化学习: (AI) 将通过与环境交互(通过反复试验)并获得奖励(负面或正面)作为执行动作的反馈来从环境中学习。
强化学习是一个解决控制任务(也称为决策问题)的框架,通过构建Agent,反复试验与环境交互并接收奖励(积极或消极)作为独特反馈,从而从环境中学习。


RL 循环输出一系列状态、动作、奖励和下一个状态。

代理的目标是最大化其累积奖励,称为预期回报。
⇒ 为什么智能体的目标是最大化预期收益?
因为RL是基于奖励假说的,即所有目标都可以被描述为预期收益(预期累积奖励)的最大化。