过拟合 | Notion

过拟合是机器学习模型训练中最常见的挑战之一，指模型在训练数据上表现极佳，但在未见过的测试数据或新数据上泛化能力差的现象。本质是模型“死记硬背”了训练数据中的噪声、异常值或偶然规律，而非学习到数据的核心通用模式。防止过拟合需要从“数据、模型、训练过程、评估方法”四个维度系统性优化，以下是具体方法及原理详解：

一、从“数据”入手：增加数据的多样性与代表性

数据是模型学习的基础，若训练数据量少、分布单一，模型极易过度贴合有限样本。此维度的核心思路是让训练数据更接近真实场景的分布，减少噪声干扰。

扩大训练数据集（最根本的方法）

原理：更多数据能覆盖更全面的样本特征，让模型有足够信息学习通用规律，而非聚焦少数样本的特殊模式。
实践方式：

首先，要弄明白我们需要什么样子的数据，数据的用途是什么？针对我们的业务，当前的任务需要什么样子的数据？用于训练，还是测试？什么样的数据是好的，什么是不好的，针对这些原则去获取数据，并且进行清洗。
- 存在，直接拿来用的
  1. 通过业务场景、公开数据集（如Kaggle、UCI）
  2. 爬虫等方式补充真实数据；爬虫方式：以关键词、标签词条、或者博主ID进行针对性的爬取。
  3. 与同领域机构共享数据（需符合隐私合规，如GDPR、数据安全法）；
- 不存在，进行创造
  1. 合成数据：对结构化数据（如表格），可用高斯混合模型、生成对抗网络（GAN）生成符合真实分布的模拟数据；对非结构化数据（如图像、文本），可用StyleGAN（图像）、GPT类模型（文本）生成高质量合成样本。
  2. 利用大模型（豆包，StableDiffusion等），使用API进行批量的做图

数据清洗：去除噪声与异常值

原理：训练数据中的噪声（如标注错误、测量误差）、异常值（如极端离群点）会误导模型，使其学习到无意义的“错误规律”，加剧过拟合。
实践方式：
- 噪声处理：对标注错误（如图像分类中标签标错），可通过人工审核、交叉验证（多人标注比对）修正；对传感器数据的随机噪声，可用滑动平均、滤波算法（如卡尔曼滤波）平滑；
- 异常值处理：用统计方法（如3σ原则、IQR四分位距）或算法（如孤立森林、DBSCAN聚类）识别异常值，根据场景选择“删除”（异常值无意义）或“修正”（如用中位数替换）。

数据增强（Data Augmentation）：扩充样本多样性

原理：在不改变样本核心标签的前提下，对原始数据进行“微小变形”，生成新的训练样本，迫使模型关注数据的本质特征（而非细节噪声）。此方法在图像、文本、语音等非结构化数据中应用极广。一是可以让模型看到多种多样的样本特征，一定程度上增加模型信息的来源，二是数据增广每次看到的同一样本略有不同，也相当于引入了一定程度的随机噪声。
常见方法：数据增强

二、从模型入手：限制模型的复杂度

过拟合的核心原因之一是模型复杂度超过数据所需（如用深度神经网络拟合简单线性数据）。此维度的思路是“让模型变‘简单’，减少其过度拟合噪声的能力”。

选择更简单的模型结构（降低模型复杂度）

原理：模型复杂度与拟合能力正相关（如多项式回归中，一次函数比三次函数简单，不易过拟合）。对简单数据，用复杂模型会“画蛇添足”，需优先选择低复杂度模型。
实践示例：
- 若数据近似线性关系，优先用线性回归/逻辑回归*，而非深度神经网络；
- 若做图像分类且数据量少，优先用轻量级CNN（如MobileNet，ShuffleNet，苹果的MobileOne用的也很多），而非ResNet-152、ViT等大模型。

正则化（Regularization）：给模型“加约束” 正则化正则化是通过在损失函数中加入“惩罚项”，限制模型参数的取值范围，避免参数过大导致模型过度复杂。常见的正则化方法有三种：（1）L1正则化（Lasso Regression） 5. Lasso回归（套索回归）
- 作用：会让部分参数变为0，实现“特征选择”（删除不重要的特征），简化模型结构。在绝对值正则化项的梯度的作用下，权重较小的参数会被逐渐置为0，权重小，说明对应的特征不重要，直接砍掉，就这样实现了特征选择。
- 适用场景：特征维度高、存在冗余特征的任务（如文本分类中的词袋模型）。
（2）L2正则化（Ridge Regression）4. Ridge回归（岭回归）
- 作用：让参数取值更接近0（但不会为0），避免个别参数过大导致模型对局部样本敏感。
- 适用场景：大多数回归、分类任务（如线性回归、神经网络全连接层），是最常用的正则化手段。
（3）Dropout（针对神经网络）
- 原理：训练过程中，随机“关闭”（置零）神经网络中部分神经元（如隐藏层神经元）,需要注意的是：**Dropout是将某些神经元的输出置为0，在训练的时候不起到作用，但是推理的时候是可以起到作用的。L1正则化，则是将一些权重置为0，相当于这些神经元直接被砍掉了，训练的时候不用了，推理的时候也不用了。**Dropout迫使模型不依赖某几个特定神经元，学习更鲁棒的特征组合。测试时，所有神经元正常工作，但参数需乘以“保留概率”（如训练时保留50%，测试时参数×0.5）以保持输出规模一致。
- 实践：在CNN的卷积层后、DNN的全连接层后添加Dropout层，保留概率通常设为0.5~0.8（数据量越少，保留概率越低）。
早停（Early Stopping）：及时“刹车”

原理：模型训练过程中，训练损失会持续下降，但验证损失（用未参与训练的验证集计算）会先下降后上升——验证损失上升的拐点，说明模型开始过拟合（已记住训练数据噪声）。此时需停止训练，保留验证损失最低时的模型参数。(就是模型在验证集上的损失开始增大的时候，就是过拟合了。)