Background

문제 정의

$$ q_*(a) \doteq \mathbb{E}\left[R_t \mid A_t=a\right] $$


모든 action에 대한 $q_*(a)$를 정확히 알고 있다면 문제 해결

하지만 실제 reward의 true distribution을 모르기 때문에 추정

$q_*(a)$에 대한 시간 $t$에서의 추정치 $Q_t(a)$를 최대한 정밀하게 구하는 것이 목표!

추정 가치가 최대인 action을 선택하는 것을 greedy action이라고 한다.

MAB 알고리즘

Greedy Algorithm

Epsilon-Greedy Algorithm

UCB: Upper Confidence Bound

MAB를 이용한 추천 시스템


MAB 알고리즘 심화

Thompson Sampling

LinUCB