强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习(trial-and-error learning)范式
多臂老虎机不存在状态信息,只有动作和奖励,算是最简单的“和环境交互中的学习”的一种形式。
有一个拥有 $K$根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布$R$,每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励$r$
$(A,\ R),\quad A = \{a_1,\dots,a_K\},\quad a_t \in A,\quad r_t \sim R(a_t),\quad \max \sum_{t=1}^{T} r_t$
多臂老虎机问题可以表示为一个元组$<A,\ R>$,其中:
假设每个时间步只能拉动一个拉杆,多臂老虎机的目标为最大化一段时间步$T$内累积的奖励:
$\quad \max \sum_{t=1}^{T} r_t$,$\quad r_t \sim R(·|a_t)$
在强化学习中,多臂老虎机问题是一个经典的探索与利用(exploration vs. exploitation)场景。我们定义如下几个关键概念: