模型偏差,优化问题
增加模型的灵活性
简单模型 → 容易学不到位(偏差大);
更复杂的模型(多特征、多层神经网络) → 表达能力更强,更容易学到接近真实规律的结果
并不是所有的结果不好,都叫做过拟合!
深层神经网络比浅层网络更有表达能力,理论上能表示更复杂的函数。按理说,深模型的损失应该比浅模型更低。
判断与应对流程
总结
偏差问题:模型再怎么加复杂度(加层、加特征),训练损失还是高 → 说明模型本身太弱。
优化问题:已有小模型能把训练损失降很低,但更复杂的模型反而没降下去,甚至更差 → 说明训练过程出了问题(优化器、梯度、初始化等)。
模型在训练集上表现很好,但在测试集上损失反而更大
模型太灵活 → 容易记住训练集里的噪声 → 测试集上就会犯错
模型复杂度太低 → 欠拟合;
模型复杂度太高 → 过拟合;
最佳模型 = 让测试损失最低的那个复杂度
不能只看训练损失,而要综合考虑 测试损失。
把数据分成两部分:训练集 (training set):比如 90%,用来训练模型参数。验证集 (validation set):比如 10%,用来评估不同模型的效果。