脱离具体问题,单纯地谈“什么学习算法更好”是毫无意义的。
从样例中学习:
过拟合:往往是学习器把训练样本自身的某些特点当作了所有潜在样本的普遍规律,无法彻底避免,只能尽量缓和
评估方法:在测试集上的测试误差,测试集尽量与训练集互斥
调参:需要在训练时用遍所有的数据,才可以。
训练数据需要另外划分为训练集和验证集。
性能度量:
P-R 图:依次把每个样例作为“真”来计算当前的查准率、查全率,然后绘制到图象中。
平衡点(BEP):P=R的值
F1度量(P与R的调和平均):$F1=\frac{2PR}{P+R}=\frac{2*TP}{\text{样例总数+TP-TN}}$
Fβ度量(P与R的调和平均):$F1=\frac{(1+\beta^2)PR}{\beta^2*P+R}$,其中β是查全率(R)对查准率(P)的相对重要性
宏F:多个混淆矩阵依次计算,然后取平均值
微F:多个TP/TN/FP/FN 取平均值后再计算
ROC 曲线,与 P-R 图类似,P更换为 TPR(正例中被预测微正例的样本比例),R更换为 FPR(反例中被预测为正例的样本比例)
AUC 曲线,将每个样例依次作为正例,计算其 TPR 与 FPR,若为真正例,则坐标为(x, y+$\frac{1}{m^+}$),若为假正例,则坐标为(x+$\frac{1}{m^-}$, y)