文章目录

  1. 1. 线性归一化
  2. 2. 0 均值归一化
  3. 3. 参考资料

不同评价指标往往具有不同的量纲单位,这样的情况会影响到数据分析的结果。因为,其中一部分数据占压倒性的优势,另一部分数据完全体现不出来作用。为了消除指标之间的量纲影响,避免人为的数据倾斜,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

常见的归一化方法有线性归一化,还有 0 均值标准化。目的都是为了让各个纬度的数据分布经过“拉伸”投射到一个相近的尺度范围内。

线性归一化

对原始数据的线性变换,使结果值映射到[0 - 1]之间。

其中,Xmax 和 Xmin 分别是原始数据的最大值与最小值。但是,注意的是,这种方法有个缺陷是当有新数据加入时,可能导致Xmax 和 Xmin 的变化,需要重新定义。

除了将数据缩放到 [0,1] 的范围,实际中还经常有其他缩放需求。例如,在进行图像处理的过程中,获得的灰度图像的灰度值在 [0,255] 之间。常用的处理方式之一,就是将像素值除以 255,就缩放到了 [0,1] 之间。

0 均值归一化

0 均值归一化,将输入的原始数据集归一化为均值为 0,方差为 1 的数据集。

其中,μ, σ 是原始数据集的均值与标准差。这种方式,要求原始数据集的分布近似为正态(高斯)分布。否则归一化的效果很差。

参考资料

(完)

微信公众号

文章目录

  1. 1. 线性归一化
  2. 2. 0 均值归一化
  3. 3. 参考资料