spark机器学习算法研究和源码分析 本项目对包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。 本系列目录如下: 基本统计 correlations(相关性系数)hypothesis testing(假设检验)Kernel density estimation(核密度估计) 交换最小二乘 线性模型 逻辑回归广义线性回归 决策树 梯度提升树 保序回归 k-means||算法PIC(快速迭代聚类)二分k-means算法 最优化算法 拟牛顿法带权最小二乘 降维 SVD(奇异值分解) 特征抽取和转换 TF-IDF 特征转换 StopWordsRemoverBinarizerDiscrete Cosine Transform (DCT)IndexToStringVectorIndexerStandardScaler(特征缩放)MaxAbsScalerElementwiseProduct(元素智能乘积)VectorAssembler 特征选择 RFormula 本专题的部分文章中用到了latex来写数学公式,可以在浏览器中安装插件用来展示这些公式。 本文使用的许可见 [LICENSE]