标准化和归一化

什么是标准化和归一化？

参考文章：CSDN、PaddleEdu、CSDN

归一化、标准化都是对数据分布进行调整的方式，将原始的一列数据转换到某个范围，或者某种形态。

什么是归一化？

归一化，可以分为两种类型或者说两个作用：

对一列数据的数值范围进行调整，调整之后的数据数值范围在固定的区间（常见[0,1]）范围内。例如：将图像数据数值范围[0，255]归一化到[0,1]，数值更小，处理更便捷快速，能够提高梯度下降方法求最优解的求解速度。需要注意的是，这个固定的区间范围并不一定是[0,1]，也可以是其他任意的范围，只是[0,1]比较常见和应用广泛。
将有量纲表达式变成无量纲表达式。
- 那么什么是量纲，又为什么需要将有量纲转化为无量纲呢？具体举一个例子。当我们在做对房价的预测时，收集到的数据中，如房屋的面积、房间的数量、到地铁站的距离、住宅附近的空气质量等，都是量纲，而他们对应的量纲单位分别为平方米、个数、米、AQI等。这些量纲单位的不同，导致数据之间不具有可比性。同时，对于不同的量纲，数据的数量级大小也是不同的，比如房屋到地铁站的距离可以是上千米，而房屋的房间数量一般只有几个。经过归一化处理后，不仅可以消除量纲的影响，也可将各数据归一化至同一量级，从而解决数据间的可比性问题。
- 也就是通过归一化，将有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。

归一化的计算公式（常见的Min-Max归一化）：

$$ 1.\space Normalization = \frac{X_i - X_{\min}}{X_{\max} - X_{\min}} $$

$$ 2.\space Normalization =a+ \frac{X_i - X_{\min}}{X_{\max} - X_{\min}}(b-a) $$

由上述公式1可知：归一化的输出范围是[0,1]，这是最常见的。

公式2 是将范围限制在[a,b]之间，公式1是更常见的，是公式2的一个特例。

该方法对原始数据进行了缩放，实际上是缩小了。利用特征中最大值和最小值的差异来做分母，说明该方法的缩放程度仅仅与数据中的极值有关（所以说该方法对异常值也比较敏感），与其他值是无关的。所以，归一化不改变数据之间的相对顺序（如大小关系），因为所有的特征都是除以相同的分母。但是改变了数据的分布形状上的表现，例如，数据[1, 2, 3]和[100, 200, 300]归一化后都变成[0, 0.5, 1]，丢失了它们在原始尺度上的分布差异（绝对值差异），同时也改变了数据点之间的绝对距离，点间距离由100变为0.5，但是距离之间的比例关系数保留的。原始数据的绝对数值范围和分布的统计特性（如标准差、偏态等）被抹平，仅保留了相对位置信息。

再来细说一下归一化的作用：

统一量纲：不同的特征存在不同的单位和数值范围，或者不同的特征数量级的变化也是不一样的，归一化将他们映射到同一个范围内，消除了量纲影响（改变变量在分析中的权重来解决不同度量的问题），使不同特征之间具有可比性。
- 变量在分析中的权重：这里的权重指的是，多个变量对最终的结果的贡献程度，例如距离千米的数值较大，房屋个数的数值较小，在分析中数值大的可能占到更大的比重，归一化恰好解决这个问题。
- 再来说归一化保留了特征之间的权重信息：这里的权重是数据点之间的相对比例和顺序，确保特征对模型的贡献基于相对关系，不同数据点之间的相对关系是不变的。
归一化可以提高最优解的求解速度
- 为什么可以提高梯度下降方法求解速度呢？
还是以上面房屋选择的案例来分析：

假设房价只与自变量距离 $x_1$和房间个数 $x_2$ 有关，那么房价的公式以及损失函数（目标函数）：

$$ y = \theta_1 x_1+\theta_2x_2 $$

$$ J = (\theta_1 x_1+\theta_2x_2 -y_{label})^2 $$

在未进行归一化的时候，距离变化范围是[0,5000]，个数的范围[0,10]，那么最优解的求解过程为：

因为距离和个数的数量级差距很大，所以等高线是一个椭圆，寻优过程中方向就是梯度的方向，也就是垂直于等高线的方向，上图蓝色就是求解过程。