10.2 近似训练

来生成背景词的条件概率

该条件概率相应的对数损失

由于softmax运算考虑了背景词可能是词典

中的任一词，以上损失包含了词典大小数目的项的累加。在上一节中我们看到，不论是跳字模型还是连续词袋模型，由于条件概率使用了softmax运算，每一步的梯度计算都包含词典大小数目的项的累加。对于含几十万或上百万词的较大词典，每次的梯度计算开销可能过大。为了降低该计算复杂度，本节将介绍两种近似训练方法，即负采样（negative sampling）或层序softmax（hierarchical softmax）。由于跳字模型和连续词袋模型类似，本节仅以跳字模型为例介绍这两种方法。

负采样修改了原来的目标函数。给定中心词

的一个背景窗口，我们把背景词出现在该背景窗口看作一个事件，并将该事件的概率计算为

其中的

函数与sigmoid激活函数的定义相同：

的文本序列，设时间步的词为且背景窗口大小为，考虑最大化联合概率

\prod{t=1}^{T} \prod{-m \leq j \leq m,\ j \neq 0} P(D=1\mid w^{(t)}, w^{(t+j)}).

然而，以上模型中包含的事件仅考虑了正类样本。这导致当所有词向量相等且值为无穷大时，以上的联合概率才被最大化为1。很明显，这样的词向量毫无意义。负采样通过采样并添加负类样本使目标函数更有意义。设背景词

出现在中心词的一个背景窗口为事件，我们根据分布采样个未出现在该背景窗口中的词，即噪声词。设噪声词（）不出现在中心词的该背景窗口为事件。假设同时含有正类样本和负类样本的事件相互独立，负采样将以上需要最大化的仅考虑正类样本的联合概率改写为

\prod{t=1}^{T} \prod{-m \leq j \leq m,\ j \neq 0} P(w^{(t+j)} \mid w^{(t)}),

其中条件概率被近似表示为 P(w^{(t+j)} \mid w^{(t)}) =P(D=1\mid w^{(t)}, w^{(t+j)})\prod_{k=1,\ w_k \sim P(w)}^K P(D=0\mid w^{(t)}, w_k).

设文本序列中时间步

的词在词典中的索引为，噪声词在词典中的索引为。有关以上条件概率的对数损失为

现在，训练中每一步的梯度计算开销不再与词典大小相关，而与

线性相关。当取较小的常数时，负采样在每一步的梯度计算开销较小。

层序softmax是另一种近似训练法。它使用了二叉树这一数据结构，树的每个叶结点代表词典

图10.3 层序softmax。二叉树的每个叶结点代表着词典的每个词

假设

为从二叉树的根结点到词的叶结点的路径（包括根结点和叶结点）上的结点数。设为该路径上第个结点，并设该结点的背景词向量为。以图10.3为例，。层序softmax将跳字模型中的条件概率近似表示为

其中

函数与3.8节（多层感知机）中sigmoid激活函数的定义相同，是结点的左子结点：如果判断为真，；反之。让我们计算图10.3中给定词生成词的条件概率。我们需要将的词向量和根结点到路径上的非叶结点向量一一求内积。由于在二叉树中由根结点到叶结点的路径上需要向左、向右再向左地遍历（图10.3中加粗的路径），我们得到

由于

，给定中心词生成词典中任一词的条件概率之和为1这一条件也将满足：

此外，由于

层序softmax使用了二叉树，并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。