⭐ 범주형 데이터 vs 숫자형 데이터

Categorical : 문자로된 범주형의 데이터 (Mon, Tue, John.. 등), (<,> 처럼 order가 유지되지 않으면 범주형)

Ordinal : 숫자형의 데이터

C4.5

image.png

✅ ID3 : 범주형 데이터를 다룰때 사용함

✅ C4.5 : input이 숫자형 데이터 → lable이 범주형 데이터일때 사용함

📌 ID3와 동일하게 input 기준으로 분할된 평균 entropy를 계산하여 gain을 구하고 split하는 것은 동일함.

하지만 다음 단계가 추가됨

Continuous-Valued Attributes ⇒ Binary Split

image.png

❓ 그렇다면 split point를 어떻게 선정할까?

image.png

image.png