XGBoost: Extreme gradient boosting

강력한 앙상블 모델인 GBM의 과적합(Overfitting) 문제, 속도 문제 등 단점을 보완한 모델

빠르고 효과적인 Gradient Boosting 라이브러리 중 하나

GBM과 마찬가지로 가중치 업데이트를 경사하강법(Gradient Descent) 기법을 사용한다.

Level-wise

균형을 잡아주어야 하기 때문에 Tree의 깊이(depth)가 줄어들고 연산이 추가된다.
Regularization

과적합(Overfitting) 방지
CART(Classification And Regression Tree) 기반

즉, 분류(Classification)와 회귀(Regression) 둘 다 가능하다.
Parallelization

Tree들을 병렬로 학습하는 구조

GBM보다 빠르다.

Untitled

Weighted Quantile Sketch

데이터 분포에 맞추어 샘플링하기 위해 분위수를 이용하는 것처럼, 각 데이터 샘플이 가지고 있는 gradient 값을 가중치로 하여 split point의 후보군을 찾는다.

Sparsity-aware Split Finding

결측치가 있는 데이터도 분류될 수 있도록 default direction을 설정

sparse matrix에 대해서도 학습이 가능하도록 한다.