⭐ 범주형 데이터 vs 숫자형 데이터
Categorical : 문자로된 범주형의 데이터 (Mon, Tue, John.. 등), (<,> 처럼 order가 유지되지 않으면 범주형)
Ordinal : 숫자형의 데이터
- Continuous : real number 실수형, 연속된 숫자
- Discrete : 정수형, 불연속적(이산적인) 숫자
C4.5

✅ ID3 : 범주형 데이터를 다룰때 사용함
✅ C4.5 : input이 숫자형 데이터 → lable이 범주형 데이터일때 사용함
📌 ID3와 동일하게 input 기준으로 분할된 평균 entropy를 계산하여 gain을 구하고 split하는 것은 동일함.
하지만 다음 단계가 추가됨
- 기존의 ID3
- split the table with an input
- evaluate entropy
- evaluate gain
- C4.5
- Choose the split point (real value)
- split the table using the split point
- evaluate entropy
- evaluate gain
Continuous-Valued Attributes ⇒ Binary Split

❓ 그렇다면 split point를 어떻게 선정할까?

- 모든 데이터가 split point의 후보군이 된다 !
