Alternative Least Square

CF의 MF 기법은 Gradient descent update를 이용하여 user와 item 의 latent vector를 찾아내는데, 이러한 최적화 과정은 너무 느리고 많은 반복이 필요하다.

동시에 user와 item의 latent vector를 찾아가는 MF 기법과 달리, ALS (Alternative Least Square)는 user 와 item의 latent factor를 한번씩 번갈아 가면서 학습시킨다. 즉, ALS는 둘 중 하나의 latent factor를 상수로 놓고, 다른 하나를 학습시키는 알고리즘이다.

Cost Function

ALS의 cost function은 다음과 같다.

$$ \min {x{\star}, y_{\star}} \sum_{u, i} c_{u i}\left(p_{u i}-x_{u}^{T} y_{i}\right)^{2}+\lambda\left(\sum_{u}\left\|x_{u}\right\|^{2}+\sum_{i}\left\|y_{i}\right\|^{2}\right) $$

$x_{u} \in \mathbb{R}^{f}$ 는 각 사용자 $u$ 에 대한 latent vector, 그리고 $y_{i} \in \mathbb{R}^{f}$ 는 각 아이템 $i$에 대한 latent vector를 의미한다.
$p_{u i}$ 는 binary variables로, 사용자 $u$가 아이템 $i$에 대한 선호 지표를 나타낸다. 즉, $u$ 가 $i$ 를 이용한 경우 ($r_{ui} > 0$), $u$ 는 $i$ 를 선호한 것으로 판단한다 ($p_{ui} = 1$). 반대로, 한 번도 $i$ 를 이용한적 없다면 ($r_{ui}=0$), $u$ 는 $i$ 를 선호하지 않은 것으로 판단한다 ($p_{ui} = 0$)

$$ p_{u i}=\left\{\begin{array}{ll}1 & r_{u i}>0 \\0 & r_{u i}=0\end{array}\right. $$
- 하지만 생각해보면, 사용자가 아이템을 한번도 이용하지 않았다고 해서 그것을 선호하지 않는 것은 아닐 것이다. 반대로, 사용자가 아이템을 이용했다고 해서, 그것을 선호한다고 절대적으로 말할 순 없다.
ALS 는 $p_{u i}$ 의 문제점을 보완하기 위해 $c_{u i}$ 를 cost function에 사용한다. 이 값은 $p_{u i}$ 에 대한 신뢰도 지수(confidence level)을 나타내는 것으로, 사용자가 아이템을 선호한다는 확신이 있을수록 높은 값을 나타낸다.

$$ c_{u i}=1+\alpha r_{u i} $$
- $r_{u i}$ 는 implicit feedback datasets 에서 observations을 나타낸다. 예를 들어, TV 프로그램 추천의 경우에는 $r_{u i}$ 값은 사용자 $u$ 가 해당 채널 $i$ 를 시청한 횟수를 나타낼 수 있다. 또는, $r_{u i} =0.7$ 과 같이, $u$ 에 대한 그 채널 $i$ 의 시청 횟수 지분이 70%를 차지한다고 표현할 수 있다.
  - 반대로 explicit feedback datasets 에서의 $r_{u i}$는 ratings을 나타낸다. 즉, 사용자 $u$ 가 아이템 $i$ 에 대한 직접적인 선호도를 표시한다. 그러나, 모든 사용자가 모든 아이템에 대해 평가할 수 없다. 그래서 이 경우 rating된 $r_{u i}$에 대해서만 학습을 진행한다. 반대로, implicit의 경우, 사용자가 아이템에 대해서 평가하지 않아도 되므로, 모든 $r_{u i}$ 값은 매우 자연스럽다.
  - ALS은 implicit feedback datasets을 기반으로 수행하는 알고리즘이다.
- $\alpha$ 는 hyper-parameter로, $r_{u i}$ 에 따른 $c_{u i}$ 의 상승량을 조절하기 위해 필요한 상수다. ALS을 소개한 논문의 실험에서는 40 으로 설정했다고 한다.

Optimization Process

이제 cost function에 대한 설명을 마쳤으니, 이 cost function을 최적화 하는 방법에 대해 알아보자. MF에서는 cost function을 최적화하기 위해서 SGD 를 사용했다. 하지만, implicit feedback datasets은 사용자 $m$ 명, 아이템 $n$ 개 에 대한 계산을 필요로 하므로, 매우 느리다.

하지만 위 cost function에서 사용자 또는 아이템에 대한 latent vector를 상수로 고정시킨다면, cost function은 quadratic이 되므로 global minimum을 찾기가 상대적으로 쉬워진다. 그래서 한쪽을 고정시키고 다른 한쪽을 최적화 한다음, 다시 반대로 최적화를 반복하면서 cost function의 값을 낮춘다.

이러한 방식을 alternating least squares 방식으로 논문에서는 말하는데, ALS 은 explicit feedback datasets 에서도 사용되었던 방식이다. 그러나, explicit 에서는 평가되지 않은 데이터를 missing 데이터로 처리하므로, sparse matrix의 문제가 있다.

Alternating least squares

1️⃣ 첫번째로, cost function을 최적화하는 사용자 $u$ 의 latent vector $x_u$ 를 찾는 것부터 시작한다. 하지만 그 전에, 미리 계산해놓고 정의해놓을 것들이 몇개 있다.

$Y$: 모든 item-factors를 대변하는 $n \times f$ 크기의 matrix
- $Y$를 이용해 $f \times f$ 크기의 matrix $Y^TY$ 를 $O(f^2n)$ 의 시간 복잡도로 계산
$C^u$: 각 사용자 $u$ 에 대한, $n \times n$ 크기의 대각 행렬 $C^u$ (where $C_{i i}^{u}=c_{u i}$).
$p(u) \in \mathbb{R}^{n}$: 사용자 $u$ 에 대한 모든 선호도($p_{u i}$ 값)를 포함한 벡터