10.降维 - 一、维度灾难 - 《AI算法工程师手册》

- 假设，且假设样本点只有一个特征，且该特征归一化后范围是，则需要 1000 个样本点平均分布在 [0,1] 之间。
  
  此时任何测试样本在其附近 0.001 距离范围内总能找到一个训练样本。
- 假设，且假设样本点只有十个特征，且该特征归一化后范围是 [0,1]，则需要个样本点平均分布[0,1] 之间。
  
  此时任何测试样本在其附近 0.001 距离范围内总能找到一个训练样本。
缓解维度灾难的一个重要途径是降维(dimension reduction)。

降维之所以有效的原因是：人们观测或者收集到的数据样本虽然是高维的，但是与学习任务密切相关的也许仅仅是某个低维分布，即高维空间中的一个低维“嵌入”。
- 监督降维算法。如：线性判别分析Linear Discriminant Analysis:LDA 。
对于降维效果的评估，通常是比较降维前后学习器的性能。如果性能有所提高，则认为降维起了作用。

也可以将维数降至二维或者三维，然后通过可视化技术来直观地判断降维效果。
对于常见的降维算法，无论是还是流形学习，都是基于距离来计算重构误差。此时建议对特征进行标准化，因为距离的计算依赖于特征的量纲。如身高特征：
- 如果采用m量纲，则取值范围通常在1~2 之间。
采用不同的量纲会导致不同的重构误差。