1. 数据标准化的两个原因:

      • 某些算法要求样本数据的属性取值具有零均值和单位方差。

    2. 设数据集 。常用的标准化算法有:

      • 标准化:对于属性 三、数据标准化、正则化 - 图1,设所有样本在属性 上的最大值为 三、数据标准化、正则化 - 图2 ,最小值为 。则标准化后的属性值为:

        三、数据标准化、正则化 - 图3

        标准化之后,所有样本在属性 上的取值都在 之间。

    3. 注意:如果数据集分为训练集、验证集和测试集,则:训练集、验证集、测试集使用相同标准化参数,该参数的值都是从训练集中得到。

      • 如果使用 标准化,则属性 三、数据标准化、正则化 - 图4 的标准化参数 都是从训练集中计算得到。
      • 如果使用 标准化,则属性 三、数据标准化、正则化 - 图5 的标准化参数 都是从训练集中计算得到。

    3.2. 数据正则化

    1. 数据正则化是将样本的某个范数(如 三、数据标准化、正则化 - 图6 范数)缩放到单位1。

      设数据集 。 则样本 三、数据标准化、正则化 - 图7 正则化后的结果为:

      其中 三、数据标准化、正则化 - 图8 为范数: 。

    2. 正则化的过程是针对单个样本的,对每个样本将它缩放到单位范数。

      标准化是针对单个属性的,需要用到所有样本在该属性上的值。