基于模型的强化学习 (MBRL)

基于模型的强化学习与其无模型的对应物仅在获取动态模型方面有所不同，但这会对决策方式产生实质性的下游影响。

动态模型通常用于建模环境的转换动态，即 $s_{t+1} = f_{\theta}(s_t, a_t)$。

逆向动态模型（将状态映射到动作）或奖励模型（预测奖励）等也可在此框架中使用。

简单定义

有一个Agent反复尝试解决问题，积累状态和行动数据。
利用这些数据，Agent创建了一个结构化的学习工具，即动态模型，用以推理世界。
借助动态模型，Agent通过预测未来决定如何行动。
通过这些行动，Agent收集更多数据，改进模型，并希望改进未来的行动。

学术定义

基于模型的强化学习（MBRL）遵循以下框架：

一个智能体与环境进行交互，学习该环境的模型，然后利用该模型进行控制（做出决策）。

具体来说，智能体在由转移函数 $s_{t+1}=f(s_t,a_t)$ 控制的马尔可夫决策过程（MDP）中行动，并在每一步 $r(s_t,a_t)$ 获得一个奖励。通过收集到的数据集 $D:=s_i,a_i,s_{i+1},r_i$，智能体学习一个模型 $s_{t+1}=f_θ(s_t,a_t)$，以最小化转移的负对数似然。

采用基于样本的模型预测控制（MPC），使用学到的动态模型，通过从均匀分布 U(a) 中采样的一组动作，来优化有限的、递归预测的视野 $τ$ 内的预期奖励（参见论文）。

深度模型驱动强化学习系统的调试

离线强化学习与在线强化学习

深度强化学习（RL）是一个用于构建决策智能体的框架。这些智能体通过试错并与环境交互，接收独特的反馈奖励来学习最优行为（策略）。

智能体的目标是最大化其累积奖励，称为回报。因为强化学习基于奖励假设：所有目标都可以描述为期望累积奖励的最大化。

深度强化学习智能体通过经验批次进行学习,它们如何收集这些经验？：