带权最小二乘
- $w_i$表示第i个观察样本的权重;
- $a_i$表示第i个观察样本的特征向量;
- $b_i$表示第i个观察样本的标签。
每个观察样本的特征数是m。我们使用下面的带权最小二乘公式作为目标函数:
minimize{x}\frac{1}{2} \sum{i=1}^n \frac{wi(a_i^T x -b_i)^2}{\sum{k=1}^n wk} + \frac{1}{2}\frac{\lambda}{\delta}\sum{j=1}^m(\sigma{j} x{j})^2
其中$\lambda$是正则化参数,$\delta$是标签的总体标准差,$\sigma_j$是第j个特征列的总体标准差。
这个目标函数有一个解析解法,它仅仅需要一次处理样本来搜集必要的统计数据去求解。与原始数据集必须存储在分布式系统上不同,
如果特征数相对较小,这些统计数据可以加载进单机的内存中,然后在端使用乔里斯基分解求解目标函数。
spark ml
中使用WeightedLeastSquares
求解带权最小二乘问题。WeightedLeastSquares
仅仅支持L2
正则化,并且提供了正则化和标准化
的开关。为了使正太方程(normal equation
)方法有效,特征数不能超过4096。如果超过4096,用L-BFGS
代替。下面从代码层面介绍带权最小二乘优化算法
的实现。
2 代码解析
在上面的代码中,standardizeFeatures
决定是否标准化特征,如果为真,则$\sigma_j$是A第j个特征列的总体标准差,否则$\sigma_j$为1。standardizeLabel
决定是否标准化标签,如果为真,则$\delta$是标签b的总体标准差,否则$\delta$为1。solverType
指定求解的类型,有Auto
,Cholesky
和QuasiNewton
三种选择。tol
表示迭代的收敛阈值,仅仅在solverType
为QuasiNewton
时可用。
WeightedLeastSquares
接收一个包含(标签,权重,特征)的RDD
,使用fit
方法训练,并返回WeightedLeastSquaresModel
。
def fit(instances: RDD[Instance]): WeightedLeastSquaresModel
训练过程分为下面几步。
- 1 统计样本信息
val summary = instances.treeAggregate(new Aggregator)(_.add(_), _.merge(_))
使用treeAggregate
方法来统计样本信息。统计的信息在Aggregator
类中给出了定义。通过展开上面的目标函数,我们可以知道这些统计信息的含义。
方法add
添加样本的统计信息,方法merge
合并不同分区的统计信息。代码很简单,如下所示:
/**
* Adds an instance.
*/
def add(instance: Instance): this.type = {
val Instance(l, w, f) = instance
val ak = f.size
if (!initialized) {
init(ak)
}
assert(ak == k, s"Dimension mismatch. Expect vectors of size $k but got $ak.")
count += 1L
wSum += w
wwSum += w * w
bSum += w * l
bbSum += w * l * l
BLAS.axpy(w, f, aSum)
BLAS.axpy(w * l, f, abSum)
BLAS.spr(w, f, aaSum) // wff^T
}
/**
* Merges another [[Aggregator]].
*/
def merge(other: Aggregator): this.type = {
if (!other.initialized) {
this
} else {
init(other.k)
}
assert(k == other.k, s"dimension mismatch: this.k = $k but other.k = ${other.k}")
count += other.count
wSum += other.wSum
wwSum += other.wwSum
bSum += other.bSum
bbSum += other.bbSum
BLAS.axpy(1.0, other.aSum, aSum)
BLAS.axpy(1.0, other.abSum, abSum)
BLAS.axpy(1.0, other.aaSum, aaSum)
this
}
aBar: 特征加权平均数
bBar: 标签加权平均数
aaBar: 特征平方加权平均数
bbBar: 标签平方加权平均数
aStd: 特征的加权总体标准差
bStd: 标签的加权总体标准差
aVar: 带权的特征总体方差
计算出这些信息之后,将均值缩放到标准空间,即使每列数据的方差为1。
- 2 处理L2正则项
val effectiveRegParam = regParam / bStd
val effectiveL1RegParam = elasticNetParam * effectiveRegParam
val effectiveL2RegParam = (1.0 - elasticNetParam) * effectiveRegParam
// 添加L2正则项到对角矩阵中
var i = 0
var j = 2
while (i < triK) {
var lambda = effectiveL2RegParam
if (!standardizeFeatures) {
val std = aStdValues(j - 2)
if (std != 0.0) {
lambda /= (std * std) //正则项标准化
lambda = 0.0
}
if (!standardizeLabel) {
lambda *= bStd
}
aaBarValues(i) += lambda
i += j
j += 1
}
- 3 选择solver
WeightedLeastSquares
实现了CholeskySolver
和QuasiNewtonSolver
两种不同的求解方法。当没有正则化项时,
选择CholeskySolver
求解,否则用QuasiNewtonSolver
求解。
val solver = if ((solverType == WeightedLeastSquares.Auto && elasticNetParam != 0.0 &&
regParam != 0.0) || (solverType == WeightedLeastSquares.QuasiNewton)) {
val effectiveL1RegFun: Option[(Int) => Double] = if (effectiveL1RegParam != 0.0) {
Some((index: Int) => {
if (fitIntercept && index == numFeatures) {
0.0
} else {
if (standardizeFeatures) {
effectiveL1RegParam
} else {
if (aStdValues(index) != 0.0) effectiveL1RegParam / aStdValues(index) else 0.0
}
}
})
} else {
None
}
new QuasiNewtonSolver(fitIntercept, maxIter, tol, effectiveL1RegFun)
} else {
new CholeskySolver
}
CholeskySolver
和QuasiNewtonSolver
的详细分析会在另外的专题进行描述。
- 4 处理结果
上面代码的异常处理需要注意一下。在AtA
是奇异矩阵的情况下,乔里斯基分解会报错,这时需要用拟牛顿方法求解。
以上的结果是在标准空间中,所以我们需要将结果从标准空间转换到原来的空间。
// convert the coefficients from the scaled space to the original space
var q = 0
val len = coefficientArray.length
while (q < len) {
coefficientArray(q) *= { if (aStdValues(q) != 0.0) bStd / aStdValues(q) else 0.0 }
}