https://github.com/a1024053774/RL_Boot/blob/master/Hands-on_Learning_RL/Chapter02/BernoulliBandit.ipynb

2.1 简介

强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习(trial-and-error learning)范式

多臂老虎机不存在状态信息只有动作和奖励,算是最简单的“和环境交互中的学习”的一种形式。

2.2 问题介绍

2.2.1 问题定义

有一个拥有 $K$根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布$R$,每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励$r$

2.2.2 形式化描述

$(A,\ R),\quad A = \{a_1,\dots,a_K\},\quad a_t \in A,\quad r_t \sim R(a_t),\quad \max \sum_{t=1}^{T} r_t$

多臂老虎机问题可以表示为一个元组$<A,\ R>$,其中:

假设每个时间步只能拉动一个拉杆,多臂老虎机的目标为最大化一段时间步$T$内累积的奖励:

$\quad \max \sum_{t=1}^{T} r_t$,$\quad r_t \sim R(·|a_t)$

2.2.3 累积懊悔


在强化学习中,多臂老虎机问题是一个经典的探索与利用(exploration vs. exploitation)场景。我们定义如下几个关键概念:

📈 期望奖励(Expected Reward)