2.降维 - 一、PCA - 《AI算法工程师手册》

- n_components：一个整数，指定降维后的维数。
  - 如果为None，则选择它的值为 min(n_samples,n_features) 。
  - 如果为字符串'mle'，则使用Minka's MLE算法来猜测降维后的维数。
  - 如果为大于0，小于1的浮点数，则指定的是降维后的维数占原始维数的百分比。
- copy：一个布尔值，指定是否拷贝原始数据。
- whiten：一个布尔值，指定是否执行白化操作。
  
  如果为True，则会将特征向量除以 n_samples倍的特征值，从而保证非相关的输出的方差为1。
  
  白化操作可能会丢弃部分信息，但是它有时候在接下来的学习器学习阶段能获得更佳的性能。
属性：
- components_：一个数组，给出主成分。
- explained_variance_：一个数组，元素是每个成分对应的 explained variance 。
- explained_variance_ratio_：一个数组，元素是每个主成分的explained variance的比例。
- mean_：一个数组，元素是每个特征的统计均值。
- n_components_：一个整数，指示主成分有多少个元素。
方法：
- fit(X[, y])：训练模型，获取降维需要的参数。
- transform(X)：执行降维，返回降维后的样本集。
- fit_transform(X[, y])：训练模型并执行降维，返回降维后的样本集。
- inverse_transform(X)：执行降维的逆运算，返回降维之前的样本集合。
注意：decomposition.PCA基于scipy.linalg来实现SVD分解，因此有两个限制：
- 无法适用于超大规模数据，因为它要求所有的数据一次加载进内存。
示例：鸢尾花数据集中，n_components_=4 ；explained_variance_ratio_=[ 0.92461621 0.05301557 0.01718514 0.00518309] 。

降到2维的结果为：

scikit-learn中的IncrementalPCA类也实现了 PCA 模型。它适用于超大规模数据，可以将数据分批加载进内存。

其原型为：
- batch_size：一个整数或者None，指定每个批次训练时，使用的样本数量。
  - 只有当调用fit()/partial_fit()方法时，才会用到该参数。
  - 如果为，则由算法自动推断。
- 其它参数参考decomposition.PCA 。
属性：
- components_：一个数组，给出主成分。
- explained_variance_ratio_：一个数组，元素是每个主成分的explained variance的比例。
- mean_：一个数组，元素是每个特征的统计平均值。
  
  每调用一次partial_fit()方法就会更新一次该属性。
- var_：一个数组，元素是每个特征的经验方差。
  
  每调用一次partial_fit()方法就会更新一次该属性。
- n_components_：一个整数，指示主成分有多少个元素。
- n_samples_seen_：一个整数，指示目前已经处理了多少个样本。
  - 每调用一次partial_fit()方法就会更新一次该属性。
  - 每调用一次fit()方法就会清零该属性。
方法：参考decomposition.PCA 。

KernelPCA是scikit-learn实现的核化PCA模型，其原型为：
- n_components：一个整数，指定降维后的维数。
- kernel：一个字符串或者可调用对象，指定核函数。
  - 'linear'：线性核：。
  - 'rbf'（默认值）：高斯核函数： ,其中由 gamma参数决定。
  - 'sigmoid'：sigmod 核函数：。其中由 gamma参数决定，r由 coef0参数指定。
  - 'precomputed'：表示提供了。
  - 一个可调用对象，该对象用于计算kernel matrix 。
- degree：一个整数，当核函数是多项式核函数时，指定多项式的系数。
  
  对于其他核函数，该参数无效。
- gamma：一个浮点数，当核函数是'rbf'，'poly'，'sigmoid'时，指定核函数的系数。
  
  如果'auto'，则表示系数为1/n_features
- coef0：浮点数，用于指定核函数中的自由项。
  
  只有当核函数是'poly'和'sigmoid'是有效。
- 如果核函数是上述指定的字符串，则该参数不起作用。
- alpha：一个整数，岭回归的超参数，用于计算逆转换矩阵（当fit_inverse_transform=True时）。
- fit_inverse_transform：一个布尔值，指定是否需要计算逆转换矩阵。当为True时，需要计算逆转换矩阵。
- eigen_solver：一个字符串，指定求解特征值的算法：
  - 'auto'：自动选择。
  - 'dense'：dense特征值求解器。
  - 'arpack'：arpack特征值求解器，用于当特征数量远小于样本数量的情形。
- tol：一个浮点数，指定arpack特征值求解器的收敛阈值（如果为0，则自动选择阈值）。
- max_iter：一个整数，指定arpack特征值求解器的最大迭代次数（如果为None，则自动选择）。
- remove_zero_eig：一个布尔值。如果为True，则移除所有为零的特征值。如果n_components=None，则也会移除所有为零的特征值。
属性：
- lambdas_：核化矩阵的特征值。
- alphas_：核化矩阵的特征向量。
- dual_coef_：逆转换矩阵。
方法：参考。