spark机器学习算法研究和源码分析 本项目对包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。 本系列目录如下: 数据类型 summary statistics(概括统计)tratified sampling(分层取样)random data generation(随机数生成) 协同过滤 分类和回归 SVMs(支持向量机)线性回归 朴素贝叶斯组合树 生存回归 聚类 GMM(高斯混合模型)LDA(隐式狄利克雷分布)流式k-means算法 梯度下降算法NNLS(非负最小二乘)迭代再加权最小二乘 EVD(特征值分解)PCA(主成分分析) 特征抽取 Word2Vec Tokenizern-gramPolynomialExpansionStringIndexerOneHotEncoderNormalizer(规则化)MinMaxScalerBucketizerSQLTransformerQuantileDiscretizer VectorSlicerChiSqSelector(卡方选择器) 本专题的部分文章中用到了latex来写数学公式,可以在浏览器中安装插件用来展示这些公式。 本文使用的许可见 [LICENSE]