2.1 简介

强化学习关注智能体和环境交互过程中的学习，这是一种试错型学习（trial-and-error learning）范式

多臂老虎机不存在状态信息，只有动作和奖励，算是最简单的“和环境交互中的学习”的一种形式。

2.2 问题介绍

有一个拥有 $K$根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布$R$，每次拉动其中一根拉杆，就可以从该拉杆对应的奖励概率分布中获得一个奖励$r$

$(A,\ R),\quad A = \{a_1,\dots,a_K\},\quad a_t \in A,\quad r_t \sim R(a_t),\quad \max \sum_{t=1}^{T} r_t$

多臂老虎机问题可以表示为一个元组$<A,\ R>$,其中：

$A$为动作集合，其中一个动作表示拉动一个拉杆，若有K个拉杆，则动作空间为$\quad A = \{a_1,\dots,a_K\}$，用$\quad a_t \in A$表示任意一个动作
$R$为奖励概率分布，拉动每一根拉杆的动作都对应一个奖励概率分布$R(r|a)$,不同拉杆的奖励分布通常是不同的。

假设每个时间步只能拉动一个拉杆，多臂老虎机的目标为最大化一段时间步$T$内累积的奖励:

$\quad \max \sum_{t=1}^{T} r_t$，$\quad r_t \sim R(·|a_t)$

在强化学习中，多臂老虎机问题是一个经典的探索与利用（exploration vs. exploitation）场景。我们定义如下几个关键概念：