脱离具体问题，单纯地谈“什么学习算法更好”是毫无意义的。
从样例中学习：
- 符号主义：产生明确的概念
- 连接主义：产生黑箱，需要调参，后来成为新的“深度学习”
- 统计学习：kernal methods 核方法需要学习
过拟合：往往是学习器把训练样本自身的某些特点当作了所有潜在样本的普遍规律，无法彻底避免，只能尽量缓和
评估方法：在测试集上的测试误差，测试集尽量与训练集互斥
- 训练集 T 的产生方法：
  - 留出法，一分为二，但是需要多次划分，取结果的平均。
    - 分层采样，正例反例比例（样本类别比例）一致。
  - 交叉验证法，分层取样，一分为 k，每次用 k-1 个子集作为训练集，另一个作为测试集，最后取结果的平均，一般也需要随机划分 p 次
  - 留一法：k=m
  - 自助法：自助采样作为训练集，其余的（大概有 36.8%）作为训练集，一般用于数据量比较小的情况。
    - 自助采样：有放回的取 m 次
调参：需要在训练时用遍所有的数据，才可以。
训练数据需要另外划分为训练集和验证集。
性能度量：
- 回归任务中：通常用均方（离散的和连续的）
- 分类任务中：错误率和精度（离散的和连续的）、查准率和查全率（使用混淆矩阵）
  - 查准率：预测出的“真”中，有多少是真的“真”。
  - 查全率：真实的“真”中有多少被预测出来了。
P-R 图：依次把每个样例作为“真”来计算当前的查准率、查全率，然后绘制到图象中。
平衡点（BEP）：P=R的值
F1度量（P与R的调和平均）：$F1=\frac{2PR}{P+R}=\frac{2*TP}{\text{样例总数+TP-TN}}$
Fβ度量（P与R的调和平均）：$F1=\frac{(1+\beta^2)PR}{\beta^2*P+R}$，其中β是查全率（R）对查准率（P）的相对重要性
宏F：多个混淆矩阵依次计算，然后取平均值
微F：多个TP/TN/FP/FN 取平均值后再计算
ROC 曲线，与 P-R 图类似，P更换为 TPR（正例中被预测微正例的样本比例），R更换为 FPR（反例中被预测为正例的样本比例）
AUC 曲线，将每个样例依次作为正例，计算其 TPR 与 FPR，若为真正例，则坐标为(x, y+$\frac{1}{m^+}$)，若为假正例，则坐标为(x+$\frac{1}{m^-}$, y)

线性模型