AdaBoost처럼 앙상블에 이전까지의 오차를 보정하도록 예측기를 순차적(Sequential)으로 추가한다.
AdaBoost처럼 매 반복 마다 샘플의 가중치를 조정하는 대신, 이전 예측기가 만든 잔여 오차(Resudial Error)에 새로운 예측기를 학습시킨다.
이전 모델의 Residual을 예측하는 다음 weak learner를 학습한다.
즉, Residual를 예측하는 형태의 모델이다.
Gradient Boosting
가중치 업데이트로 **경사하강법(Gradient Descent)**을 사용하여 최적화된 결과를 얻는 알고리즘
loss function이 줄어드는 방향(negative gradient)으로 week learner들을 반복적으로 결합하여 성능을 향상시킨다.
대체로 Random forest보다 나은 성능을 보인다.
Sequential + Additive Model
예측값
회귀 문제: residual을 그대로 사용
분류 문제: log(odds) 값을 사용
학습 속도가 느리다.
과적합 이슈(Prediction Shift)가 있다.
CTR 예측을 통해 개인화된(personalized) 추천 시스템을 만들 수 있는 또 다른 대표적인 모델
8개의 오픈 CTR 데이터셋에 대해 다른 추천 모델(FM 계열 포함)보다 높은 성능을 보인다.
사례) 하쿠나 라이브
서비스 데이터가 축적됨에 따라 초기의 인기도 기반 혹은 휴리스틱 기반 추천 시스템에서 탈피하기 위해 다양한 모델의 성능을 비교해보았다.
Level-wise