数据标准化的两个原因:
某些算法要求样本数据的属性取值具有零均值和单位方差。
设数据集 。常用的标准化算法有:
标准化:对于属性 ,设所有样本在属性 上的最大值为 ,最小值为 。则标准化后的属性值为:
标准化之后,所有样本在属性 上的取值都在 之间。
注意:如果数据集分为训练集、验证集和测试集,则:训练集、验证集、测试集使用相同标准化参数,该参数的值都是从训练集中得到。
- 如果使用 标准化,则属性 的标准化参数 都是从训练集中计算得到。
- 如果使用 标准化,则属性 的标准化参数 都是从训练集中计算得到。
3.2. 数据正则化
数据正则化是将样本的某个范数(如 范数)缩放到单位1。
设数据集 。 则样本 正则化后的结果为:
其中 为范数: 。
正则化的过程是针对单个样本的,对每个样本将它缩放到单位范数。
标准化是针对单个属性的,需要用到所有样本在该属性上的值。