Random Forests 간단한 개요

image.png

Ensemble 앙상블

image.png

📌 앙상블 장점

  1. 일반적인 모델(Logistic Regression) → 성능에 대한 분산이 크다.

    ⇒ 또 다른 Advanced한 모델을 이용해서 성능을 측정함 (상대적으로 더 작은 분산)

    ⇒ 이 과정을 반복해서 많은 수의 모델을 이용해서 성능을 측정하게 되면, 성능에 대한 전체 분산이 줄어든다. 즉, 안정적인 분산 값이 나오게 되고 범위가 처음보다 좁혀진다.

    ⇒ 예측이 안정적으로 변한다.

  2. 다른 모델들이 실수 할 수 있지만, 동시에 모든 모델이 실수할 확률은 줄어들기 때문에 correct가 올라감

❗Ensemble의 2가지 접근방법이 존재함

  1. Bagging
  2. Boosting

1️⃣ Bagging ⇒ Ensemble로서의 bagging

image.png

⭐ Bagging of Decision Trees ⇒ Random Forest

image.png

⚡ Bagging(R.F)의 문제점 : 각기 독립적인 결정 트리 모델이지만 모든 모델이 같은 답을 내보낼 수 있다 ! ⇒ meaningless 하다.