8.词向量 - 二、LSA - 《AI算法工程师手册》

其中表示单词在文档中的权重，可以为：单词在文档中是否出现的0/1 值、单词在文档中出现的频次、或者单词在文档中的TF-IDF 值。
定义，它为矩阵的第列，代表单词的单词-文档向量，描述了该单词和所有文档的关系。
- 向量内积描述了单词和单词在文档集合中的相似性。
- 矩阵乘积包含了所有词向量内积的结果。
定义，它为矩阵的第行，代表文档的文档-单词向量，描述了该文档和所有单词的关系。
- 向量内积描述了文档和文档在文档集合中的相似性。
- 矩阵乘积包含了所有文档向量内积的结果。
对矩阵进行SVD 分解。假设矩阵可以分解为：。其中：
- 为广义对角矩阵。
  
  其中称作奇异值。
SVD 分解的物理意义为：将文档按照主题分解。所有的文档一共有个主题，每个主题的强度（主题强度就是主题在数据集中出现的次数）分别为：。
- 第篇文档由这个主题组成，文档的主题概率分布（称作文档-主题向量）为：
- 第个单词由个主题组成，单词的主题概率分布（称作 单词-主题 向量）为：
- 根据有：
  
  则该分解的物理意义为：矩阵 = 文档-主题 矩阵 x 主题强度 x 主题-单词 矩阵。

得到了文档的主题分布、单词的主题分布之后，可以获取文档的相似度和单词的相似度。
- 文档和文档的相似度：
- 单词和单词的相似度：
虽然获得了文档的单词分布，但是并不能获得主题的相似度。因为是正交矩阵，因此有：

则有：

因此，任意两个主题之间的相似度为 0 。
文档-主题向量由决定。根据：，而文档-主题向量为的行向量，也就是的列向量。文档-单词向量为的行向量，也就是的列向量。

因此对于一篇新的文档，假设其文档-单词向量为，则其文档-主题向量为：
LSA 可以应用在以下几个方面：
- 通过对单词的进行比较，从而用于同义词、多义词进行检测。
- 通过将query 映射到主题空间，进而进行信息检索。

LSA 的本质是将矩阵通过 SVD 进行降维，降维主要是由于以下原因：
- 原始的文档-单词 矩阵太大计算机无法处理，通过降维得到原始矩阵的一个近似。
- 原始的文档-单词 矩阵含有噪音，通过降维去掉原始矩阵的噪音。
- 原始的文档-单词 矩阵过于稀疏，通过降维得到一个稠密的矩阵。
LSA 的降维可以解决一部分同义词的问题，也可以解决一部分二义性的问题。
- 经过降维，意义相同的同义词的维度会因降维被合并。
- 经过降维，拥有多个意义的词，其不同的含义会叠加到对应的同义词所在的维度上。
LSA 的缺点：
- 产生的主题维度可能存在某些主题可解释性差。即：它们并不代表一个人类理解上的主题。
- 由于Bag of words:BOW 模型的局限性，它无法捕捉单词的前后顺序关系。