半朴素贝叶斯分类器原理:适当考虑一部分特征之间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的特征依赖关系。
独依赖估计
One-Dependent Estimator:OED
是半朴素贝叶斯分类器最常用的一种策略。它假设每个特征在类别之外最多依赖于一个其他特征,即:其中 为特征 所依赖的特征,称作的 父特征。
-
不同的做法产生不同的独依赖分类器。
3.1.1 SPODE
3.1.2 TAN
是在最大带权生成树算法基础上,通过下列步骤将特征之间依赖关系简化为如下图所示的树型结构:
-
如果两个特征 相互条件独立,则 。则有条件互信息 ,则在图中这两个特征代表的结点没有边相连。
以特征为结点构建完全图,任意两个结点之间边的权重设为条件互信息 。
加入类别结点 ,增加 到每个特征的有向边。因为所有的条件概率都是以 为条件的。
-