의사결정 트리(Decision Tree)의 주요 특징
-
직관적인 해석: 트리 구조로 표현되어 의사결정 과정을 시각적으로 게 이해할 수 있다
-
비선형 관계 학습: 데이터의 비선형적인 패턴을 효과적으로 학습할 수 있다
-
특징 중요도: 어떤 특징이 분류/예측에 더 중요한지 파악할 수 있다
-
전처리 유연성: 데이터 스케일링이 필요 없고, 결측치 처리에 강하다
<aside>
📢 단점
과적합 위험이 있다, 작은 데이터 변화에도 트리 구조가 크게 바뀔 수 있다
이름 극복하기 위해서 트리의 크기를 사전에 제한하는 튜닝이 필요 (사전 가지치기)
</aside>
의사 결정 방향 → 불순도가 낮아지는 방향
<aside>
💡불순도 측정 지니 불순도
지니 불순도는 의사결정 트리에서 데이터의 순수성을 측정하는 방법입니다. 데이터가 얼마나 잘 분류되어 있는지를 나타내는 지표로,
노드에서 서로 다른 클래스가 얼마나 섞여 있는지를 측정, 의사결정 트리는 불순도가 낮아지는 방향으로 의사 결정을 진행
</aside>
📌 의사결정 트리의 주요 구성요소와 특성
- Root Node (루트 노드): 트리의 시작점으로, 전체 데이터셋을 포함하는 최상위 노드
- Decision Node (의사결정 노드): 특정 특성을 기준으로 데이터를 분할하는 중간 노드
- Leaf Node (리프 노드): 최종 결정이 이루어지는 말단 노드로, 더 이상 분할되지 않는다
- Depth (깊이): 루트 노드에서 리프 노드까지의 거리를 의미하며, 깊이가 증가할수록 과적합 위험이 높아 진다
- Sub Tree (서브 트리): 전체 트리 내의 작은 부분 트리를 의미
📌 주요 하이퍼파라미터
- max_depth: 트리의 최대 깊이를 제한하여 과적합을 방지
- min_samples_split: 노드를 분할하기 위한 최소 샘플 수를 지정
- min_samples_leaf: 리프 노드가 가져야 할 최소 샘플 수를 지정