4.最优化基础 - 十、Normalization - 《AI算法工程师手册》

- 它并不是一个优化算法，而是一个自适应的、调整参数模型的方法。
- 它试图解决训练非常深的神经网络的困难。
深度神经网络训练困难的一个重要原因是：深度神经网络涉及很多层的叠加，而每一层的参数更新会导致上一层的输入数据分布发生变化。这会带来两个问题：
- 下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区，使得学习过早停止。
- 通过层层叠加，高层的输入分布变化会非常剧烈。这就使得高层需要不断去适应底层的参数更新变化。
  
  这就要求我们需要非常谨慎的设定学习率、初始化权重、参数更新策略。

10.1.1 白化

在机器学习中，如果数据是独立同分布的，则可以简化模型的训练，提升模型的预测能力。所以通常需要对输入数据进行白化whitening。白化主要实现两个目的：
- 去除特征之间的相关性。即：特征之间尽可能的独立。
- 使得所有特征都具有相同的均值和方差。即：特征之间尽可能的同分布。
白化操作：
- 首先将输入执行 PCA 降维，这称作PCA 处理。
- 然后在新的空间中，对输入数据的每一维进行标准差归一化处理。
理论上可以对神经网络的每一层的输入执行白化来解决输入数据分布的问题。但是有两个困难：
- 白化操作代价高昂，算法复杂度太大。因为PCA 处理涉及到协方差矩阵的特征值求解，而计算协方差矩阵的算法复杂度为（不考虑Strassen 算法优化），其中为数据集样本数量，为特征数量。
  
  对于神经网络的训练集，通常都数以万计甚至百万计，如果在每一层、每一次参数更新都执行白化操作，则不可接受。
- 白化操作不可微，这样反向传播算法无法进行。
因此batch normalization 就退而求其次，执行简化版的白化：将神经网络的每一层的输入的分布限定其均值和方差。

10.1.2 深层网络的参数更新

对于一个深层的神经网络，如果同时更新所有层的参数，则可能会发生一些意想不到的后果。

假设有一个深层神经网络，一共有层，每层只有一个单元，且每个隐层不使用激励函数。则输出为：

其中为第层的权重。第层的输出为：。

令，其中：

利用梯度下降法更新参数，则有：
如果使用的一阶泰勒近似，则有：。即：的值下降了。因此梯度下降法一定能够降低的值。

如果直接按多项式乘法展开，则会考虑的二阶、三阶甚至更高阶的项，有：

考虑到，则有：
- 如果都比较小，则很小，则二阶项可以忽略不计。
  
  如果都比较大，则该二阶项可能会指数级大。此时很难选择一个合适的学习率，使得。
  
  因此某一层中参数更新的效果会取决于其他所有层（即：其它层的权重是不是较大）。
- 虽然二阶优化算法会利用二阶项的相互作用来解决这个问题，但是还有三阶项甚至更高阶项的影响。

10.1.3 BN 算法

batch normalization解决了多层之间协调更新的问题，它可以应用于网络的任何输入层或者隐层。
设为神经网络某层的一个mini-batch 的输入，为输入的维度。
- 首先计算这个mini-batch 输入的均值和每维特征的标准差：
- 然后对输入进行归一化：
  
  其中表示逐元素的除法：。
- 最后执行缩放：。其中是网络从数据中自动学习到的参数，用于调整的均值和方差，为逐元素积。
  
  虽然的每个维度不是零均值、单位方差的，但是可以保证它的每个维度的均值、方差不再依赖于低层的网络。
归一化一个神经元的均值和标准差会降低包含该神经元的神经网络的表达能力。

若每个神经元的输出都是均值为0、标准差为 1 ，则会产生两个问题：
- 无论底层的神经元如何学习，其输出在提交给上层神经元处理之前，都被粗暴的归一化。导致底层神经元的学习毫无意义。
- sigmoid 等激活函数通过区分饱和区、非饱和区（线性区），使得神经网络具有非线性计算的能力。
  
  输入归一化使得数据几乎都被映射到激活函数的线性区，从而降低了模型的表达能力。
因此执行缩放的原因是：保证模型的容量不会被降低。

当网络学到的参数且好是时，，因此BN 可以还原原来的输入。这样，模型既可以改变、也可以保持原输入，这就提升了网络的表达能力。
batch normalization 算法
- 输出：经过batch normalization 得到的新的输入
- 算法步骤：
  - 计算输入的每个维度的均值和方差：
  - 对输入的每个维度执行归一化：
  - 执行缩放：
根据梯度的链式法则，反向传播规则为（假设代价函数为）：
- 考虑到出现在中，因此有：
- 由于出现在中，因此有：
大多数神经网络隐层采用的形式，其中是非线性激励函数（如relu）。

在batch normalization 中推荐使用，因为参数会被 batch normalization 中的参数吸收：无论的值是多少，在归一化的过程中它将被减去。

10.1.4 BN 内部原理

BN 表现良好的一个解释是：内部协方差偏移Internal Covariate Shift:ICS 会对训练产生负面影响，BN 能够减少ICS。
内部协方差偏移：低层网络的更新对当前层输入分布造成了改变。

统计学习中一个经典假设是源空间source domain 和目标空间target domain 的数据分布一致。协方差偏移covariate shift 就是分布不一致假设之下的一个分支问题。它指的是：源空间和目标空间的条件概率是一致的，但是其边缘概率不同。即：对所有的，有，但是。

在神经网络中经过各层的作用，各层输出与其输入分布会不同。这种差异随着网络深度的增大而增大，但是它们能够“指示”的样本标记仍然不变，这就符合covariate shift 的定义。

由于是对层间信号的分析，这就是internal 的由来。

ICS 带来的问题是：各个神经元的输入数据不再是独立同分布的。
- 上层参数需要不断适应新的输入数据分布，降低了学习速度。
- 下层输入的变化可能趋向于变大或者变小，导致上层落入饱和区，使得学习过早停止。
- 每层的更新都会影响到其它层，因此每层的参数更新策略需要尽可能的谨慎。
论文《How Does Batch Normalization Help Optimization》 2018 Shibani Santurkar etc. 说明BN 对训练带来的增益与ICS 的减少没有任何联系，或者说这种联系非常脆弱。研究发现：BN 甚至不会减少ICS 。

论文说明 BN 的成功的真正原因是：它使得优化问题的解空间更加平滑了。这确保梯度更具有预测性，从而允许使用更大范围的学习率，实现更快的网络收敛。

10.1.5 BN 性质

BN 独立地归一化每个输入维度，它要求每个mini batch 的统计量是整体统计量的近似估计。

因此BN 要求每个mini-batch 都比较大，而且每个mini-batch 的数据分布比较接近。所以在训练之前，需要对数据集进行充分混洗，否则效果可能很差。
当验证或者测试的batch size 较小时（如：只有一个测试样本），此时无法得到mini batch 的统计量，或者mini batch 统计量无法作为整体统计量的近似估计。

此时的做法是：先通过训练集上得到的所有 mini batch 的统计量的移动平均值，然后将它们作为验证或者测试时的mini batch 的统计量。

但是当训练数据、验证数据、测试数据的数据分布存在差别时（如：训练数据从网上爬取的高清图片，测试数据是手机拍照的图片），训练集上预先计算好的mini batch 的统计量的移动平均值并不能代表验证集、测试集的相应的统计量。这就导致了训练、验证、测试三个阶段存在不一致性。
BN 存在两个明显不足：
- 高度依赖于mini batch 的大小。它要求每个mini-batch 都比较大，因此不适合较小的场景，如：在线学习（batch size=1 ）。
- 不适合RNN 网络。
  
  因为不同样本的 sequence 的长度不同，因此RNN 的深度是不固定的。同一个batch 中的多个样本会产生不同深度的RNN，因此很难对同一层的样本进行归一化。
设，则BN 具有权重伸缩不变性，以及数据伸缩不变性。
- 权重伸缩不变性：假设，则有：
  
  其中因为很小几乎可以忽略不计，因此有，则有：。
  
  因此权重缩放前后，保持不变。是BN 层的输入，就是高层流向低层的梯度，因此权重缩放不影响梯度的流动。
  
  另外，由于，因此权重越大，则该权重的梯度越小，这样权重更新就越稳定。这相当与实现了参数正则化的效果，避免了参数的大幅震荡。
- 数据伸缩不变性：假设，同理有：
  
  因此数据的伸缩变化不会影响到对该层的权重更新，简化了对学习率的选择。
究竟是在激活函数之前、还是之后进行batch normalization，这个问题在文献中有一些争论。

实践中，通常都是在激活函数之前进行的。
在测试阶段，如果需要对单一样本评估，此时测试集只有单个样本，无法给出均值和标准差。

解决的方式为：将设置为训练阶段收集的运行均值（或者是指数加权均值）。

10.2 其它 normalization

除了batch normalization 之外，还有layer normalization、 instance normalization、group normalization、 weight normalization 。

下图给出了BN、LN、IN、GN 的示意图（出自论文《Group Normalization》 Kaiming He etc.）。其中蓝色部分表示：通过这些蓝色区域计算均值和方差，然后蓝色区域中的每个单元都使用这些均值、方差来归一化。

注意：这里的BN 是网络某层中，对每个通道进行归一化；而前面的BN 是对每个神经元进行归一化。

如果是对每个神经元进行归一化，则BN 示意图中，蓝色区域只有最底下的一行。

10.2.1 layer normalization

与 BN 不同，LN 是对单个样本的同一层的神经元进行归一化，同层神经元使用相同的均值和方差。

对于该层神经元，不同样本可以使用的均值和方差不同。

与之相比，BN 是对每个神经元在mini batch 样本之间计算均值和方差。对每个神经元，mini batch 中的所有样本在该神经元上都使用相同的均值和方差。但是不同神经元使用不同的均值和方差。

因此LN 不依赖于batch size，也不依赖于网络深度。因此它适合在线学习，也适合于RNN 网络。
设神经网络第层的输入为，，为该层神经元的数量。则LN 的步骤为：
- 首先计算该层所有神经元的均值和方差：
- 然后对神经元进行归一化：
  
  其中都是标量。
- 最后执行缩放：。
  
  与 BN 相同，也是网络从数据中自动学习到的参数，用于调整的均值和方差，为逐元素积。
  
  这一步的作用也是提升神经网络的表达能力。
layer normalization 算法
- 输入：
  - 网络中第层的输入
  - 参数（它们是由神经网络自动学习到的）
- 算法步骤：
  - 对该层神经元进行归一化：
  - 执行缩放：
根据梯度的链式法则，反向传播规则为（假设代价函数为）：

由于出现在多条路径中，因此有：

其中出现标量与向量的加法，它等价于将标量扩充为向量，扩充向量在每个维度上的取值就是该标量。如：。

其计算图如下所示，与BN 相同。
LN 的特点是：针对单个样本进行，不依赖于mini batch 中的其它样本。

10.2.2 instance normalization

与IN 与LN 相同，它们都是对单个样本进行操作。与LN 不同的是：IN 对同一层神经元中的同一个通道进行归一化。

IN 主要用于图像处理任务中，此时每一层网络都有 N、H、W、C 四个维度。其中N 代表batch 维度，H、W 代表 feature map 的宽度和高度， C 代表通道数量。

LN 使得同一层神经元中的同一个通道上的神经元使用相同的均值和方差。对于该通道中的神经元，不同的样本使用的均值和方差不同。
设单张图片在网络第层的输入张量为。为了防止名字冲突，这里用标记第层的输入。其中为通道数，为feature map 的高度和宽度。

三个索引分别代表：代表通道维的索引，分别代表高度和宽度维度的索引。

则 LN 的步骤为：
- 首先计算样本在第个通道的神经元的均值和方差：
- 然后对神经元进行归一化：
- 最后执行缩放：
  
  其中表示第个通道位于) 的神经元的缩放因子和平移因子。
instance normalization 算法
- 输入：
  - 网络第层的输入张量为
  - 参数张量
- 输出：经过得到的新的输入
- 算法步骤：
  - 计算样本在第个通道的神经元的均值和方差：
  - 对神经元进行归一化：
  - 执行缩放：。
instance normalization 的反向传播规则的推导类似layer normalization 。
BN 对mini batch 中所有图片求均值和方差，计算得到的统计量会受到mini batch 中其它样本的影响。而IN 是对单个图片求均值和方差，与其它样本无关。
- 对于GAN、风格迁移这类任务上，IN 效果要优于BN 。其普遍解释为：这类生成式方法，每张图片自己的风格比较独立，不应该与batch 中其它图片产生太大联系。
- IN 也不依赖于batch size，也不依赖于网络深度。因此它适合在线学习，也适合于RNN 网络。

10.2.3 group normalization

GN 首先将通道分组。假设有C 个通道，分成G 个组，则：通道1,...,C/G 为一个组，通道C/G+1,...,2C/G 为一个组…. 。

然后GN 对每个通道组进行归一化。

因此可以看到：GN 介于LN 和IN 之间。如果G=1，即只有一个分组，则GN 就是LN ；如果G=C，即每个通道构成一个组，则GN 就是IN 。
group normalization 算法
- 输入：
  - 网络第层的输入张量为
  - 分组的组数
  - 参数张量
- 输出：经过group normalization 得到的新的输入
- 算法步骤：
  - 计算每个分组的通道数
  - 计算样本在第个分组的神经元的均值和方差：
  - 对神经元进行归一化：
  - 执行缩放：。
GN 有效的可能原因是：在网络的每一层中，多个卷积核学到的特征并不是完全独立的。某些特征具有类似的分布，因此可以被分到同一组。

10.2.4 比较

根据论文《Group Normalization》 Kaiming He etc. 得到的结论：
- BN 很容易受到batch size 的影响，而GN 不容易受到batch size 的影响。
  
  如下图/表所示为BN 和GN 的比较，模型为resnet-50、训练集为ImageNet、训练硬件为8个带GPU 的 worker 、指标为它们在验证集上的验证误差。