- 流程
- 從現有特徵中選擇最好的特徵作為劃分節點
- 產生分支
- 把樣本、數據劃分到節點裡面,並刪除該特徵
- loop 1~3
- 如何選擇最好的節點劃分
- 分類器分類方法
1. ID3
- 選擇信息增益度最大的特徵
- 越小的樹優於越大的
- 信息增益越大表示使用特征 A 来划分所获得的“纯度提升越大”
1-1. 信息增益度
- 信息增益度 = 信息熵 - 條件熵
- $Gain(D,A)=H(D)-H(D|A)$
- $H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}\log\frac{|C_k|}{|D|}$
- $H(D|A)
=\sum_{i=1}^m\frac{|D_i|}{|D|}H(D_i)
=\sum_{a=1}^m\frac{|D_i|}{|D|}(-\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|})$
- |Di| 表示所有樣本中特徵 A 取第 i 個值的子集數量
- |Dik| 表示所有樣本中(特徵 A 取第 i 個值)&(為第 k 個類別)的子集數量
1-2. 缺點
- 对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;
- ID3 没有剪枝策略,容易过拟合;
- 只能用于处理离散分布的特征;
- 没有考虑缺失值。
2. C4.5
- 使用信息增益率解決 ID3 流水號特徵問題
- 引入悲观剪枝策略进行后剪枝降低擬和程度
- 可處理連續特徵
- 假设 n 个样本的连续特征 A 有 m 个取值
- 将其排序并取相邻两样本值的平均数共 m-1 个數作為划分点
- 可處理缺失值
- 如果某特徵值A的樣本有缺失值,就用該特徵其他沒缺失的樣本子集之比重來計算
- 如果新樣本缺少某特徵值,又需要以該特徵值分類時,就將該樣本劃分到該層所有子集之中只是以不同的權重,即不同的概率