6.集成学习 - 五、多样性分析 - 《AI算法工程师手册》

- 对于某个样本，定义学习器的分歧为：。
  
  分歧刻画了个体学习器在某个样本上的不一致性，在一定程度上反映了个体学习器的多样性。
- 定义集成学习器的分歧为 : 。
设样本的真实标记为，则个体学习器和集成学习器的平方误差分别为：

令个体学习器误差的加权均值为：。根据，则有：
令为样本的概率密度。则在全样本上有：

代入各变量，则有：
定义个体学习器在全体样本上的泛化误差和分歧项为：

定义集成的泛化误差为：。则有：。
定义个体学习器泛化误差的加权均值为。定义个体学习器的加权分歧值为。则有：。这就是集成学习的误差-分歧分解。
- 该式针对回归学习，难以直接推广到分类学习任务中去。
从误差-分歧分解中看出：要想降低集成学习的泛化误差，要么提高个体学习器的加权分歧值，要么降低个体学习器的泛化误差的加权均值。

因此：个体学习器准确性越高、多样性越大，则集成越好。

多样性度量diversity measure是用于刻画集成模型中的个体分类器的多样性的程度。通常是考虑个体分类器的两两相似/不相似程度。
其中：
- 表示：预测为 +1，且预测为 +1 的样本的数量。
- 表示：预测为 +1，且预测为 -1 的样本的数量。
- 表示：预测为 -1，且预测为 +1 的样本的数量。
- 表示：预测为 -1，且预测为 -1 的样本的数量。

5.2.1 不合度量

不合度量：。

其范围为 [0,1]，值越大则多样性越大。

5.2.2 相关系数

相关系数correlation coefficient：。

其范围是。
- 如果与无关，则值为 0。
- 如果与正相关，则值为正。
- 如果与负相关，则值为负。

5.2.3 Q 统计量

Q统计量Q-statistic：。

与相关系数符号相同，且

5.2.4 kappa 统计量

- 若两个分类器在数据集上完全一致，则。
  
  因为此时，则。
- 如果两个分类器仅仅是偶然达成一致，则。
  
  因为此时，则。
- 通常取非负值，仅在与达成一致的概率甚至低于偶然性的情况下才取负值。

集成学习中，需要有效地生成多样性较大的个体学习器。

一般的思路是在学习过程中引入随机性。常见的做法是：对数据样本、输入属性、输出表示、算法参数进行扰动。
数据样本扰动：给定初始数据集，可以从中产生出不同的数据子集。再利用不同的数据子集训练出不同的个体学习器。
- 数据样本扰动通常是基于采样法，此类做法简单高效、使用最广。
- 对于常见的基学习器，如决策树、神经网络等，训练样本稍加变化就会导致学习器有显著的变动，数据样本扰动法对这样的“不稳定基学习器”很有效。
- 对于一些基学习器对数据样本的扰动不敏感，如线性学习器、支持向量机、朴素贝叶斯、近邻学习器等，这样的基学习器称作稳定基学习器。
  
  对于此类的基学习器进行集成往往需要使用输入属性扰动等其他机制。
输入属性扰动：训练样本通常由一组属性描述，不同的“子空间”提供了观察数据的不同视角。显然从不同子空间训练出来的个体学习器必然有所不同。
- 对于包含了大量冗余属性的数据，在子空间中训练个体学习器不仅能够产生多样性大的个体，还会因为属性数量的减少而大幅节省时间开销。
  
  同时由于冗余属性多，减少一些属性之后训练的个体学习器也不至于太差。
- 对于只包含少量属性的数据，或者冗余属性较少，则不宜采用输入属性扰动法。
输出表示扰动：此类做法的思路是对输出表示进行操纵以增强多样性。

如：可以对训练样本的类标记稍作变动，如翻转法随机改变一些训练样本的标记。
不同的多样性增强机制可以同时使用。如随机森林同时是用了数据样本扰动和输入属性扰动。