18.主题模型 - 五、sentence-LDA - 《AI算法工程师手册》

Sentence-LDA 的文档生成过程：
- 根据参数为的狄利克雷分布随机采样，对每个话题生成一个单词分布。每个话题采样一次，一共采样次。
- 对每篇文档：
  - 根据参数为的狄利克雷分布随机采样，生成文档的一个话题分布。每篇文档采样一次。
  - 对文档中的每个句子：
    - 从话题分布中中采样一个话题，然后从话题的单词分布采样个单词。为句子的编号。
      
      此时这些单词的话题都是。
    - 重复生成个句子，得到一篇包含个句子的文档。
Sentence-LDA 的吉布斯采样概率为：

各参数的意义为：
Sentence-LDA 得到的文档-主题概率分布为：

其中：

5.2 ASUM

论文 Aspect and sentiment unification model for online review analysis 中提出了 sentence-LDA 以及扩展了 sentence-LDA 的 ASUM 模型。

ASUM（）同时对评论的主题以及评论的情感进行建模。它认为客户撰写评论的方式为：（以餐馆评论为例）：
- 首先决定餐馆评价的好坏概率分布，如：70%是满意的，30%是不满意的。
- 然后对每个情感给出其评价主题概率分布。如：满意的主题概率分布为：50%是服务，25%是食物，25% 是价格。
- 最后对每个句子，表达一个主题和一个情感。即：每个句子中所有的单词背后都是同一个主题，也是同一个情感。
ASUM 文档生成过程：
- 对每一个主题-情感 对（情感为，主题为），从的狄利克雷分布随机采样，得到该主题和该情感下的单词分布：。每个主题-情感采样一次，一共采样次。
  
  其中为情感的总数。
- 对每篇文档：
  - 对文档中的每个句子：
与 LDA 模型不同，ASUM 模型中的参数是非对称的：如 good,great 不大可能会出现在负面情感中，bad,annoying 不大可能出现在正面情感中。
ASUM 的吉布斯采样概率为：

各参数的意义为：
ASUM 得到的文档-情感概率分布为：

文档的情感-主题分布为：

主题-单词概率分布为：

其中：
和 SLDA可以用于以下用途：
- 利用 SLDA 进行评论的主题抽取。
- 利用 ASUM 进行 情感-主题 的抽取。
- 自适应的扩展特定主题下的情感词。
  - 首先进行情感-主题 合并。以词的分布为向量，计算情感-主题 的两两余弦相似度。如果结果超过一个阈值，则认为二者是相同的。
  - 计算词的出现概率。如果一个单词在所有情感-主题 下都有高概率，则它是一个通用词；如果它仅仅在一个情感-主题 下有高概率，则它是一个特定主题下的情感词。
- 无监督情感分类。根据中，各情感的分布来执行分类。
  
  其中需要引入先验知识：的取值是多少才代表正面情感。这需要观察情感-主题 词的分布，由人工指定。