主成分分析
最近重构性:样本点到超平面的距离都足够近
基于最近重构性和最大可分性,能分别得到主成分分析的两种等价推导。
假设我们对样本点进行了中心化,即所有样本的和为0。再假设投影变换后得到的新坐标系为:
若丢弃新坐标系中的部分坐标,将维度降到,则样本点$x{i}$在低位坐标系中的投影是$z{i}$ :

考虑整个训练集,原样本点和基于投影重构的样本点之间的距离为

根据最近重构性,最小化上面的式子,就可以得到主成分分析的优化目标
从最大可分性出发,我们可以得到主成分分析的另一种解释。我们知道,样本点$x{i}$在新空间中超平面上的投影是$W^{T}x{i}$ ,
若所有样本点的投影能尽可能分开,则应该使投影后样本点的方差最大化。投影后样本点的方差是

于是优化目标可以写为
这个优化目标和上文的优化目标是等价的。对优化目标使用拉格朗日乘子法可得

于是,只需要对协方差矩阵进行特征值分解,将得到的特征值排序,在取前个特征值对应的特征向量,即得到主成分分析的解。
2 源码分析
主成分分析的实现代码在RowMatrix
中实现。源码如下:
参考文献
【1】 机器学习.周志华