1. 判别式概率图模型是对条件分布进行建模,如条件随机场。

    2. 条件随机场试图对多个随机变量(它们代表标记序列)在给定观测序列的值之后的条件概率进行建模:

      令 为观测变量序列, 四、条件随机场 CRF - 图1 为对应的标记变量序列。条件随机场的目标是构建条件概率模型 。

      即:已知观测变量序列的条件下,标记序列发生的概率。

    3. 标记随机变量序列 四、条件随机场 CRF - 图2 的成员之间可能具有某种结构:

      • 在自然语言处理的词性标注任务中,观测数据为单词序列,标记为对应的词性序列(即动词、名词等词性的序列),标记序列具有线性的序列结构。
      • 在自然语言处理的语法分析任务中,观测数据为单词序列,标记序列是语法树,标记序列具有树形结构。
    4. 令 表示与观测变量序列 四、条件随机场 CRF - 图3 和标记变量序列 对应的无向图, 四、条件随机场 CRF - 图4 表示与结点 对应的标记随机变量, 四、条件随机场 CRF - 图5 表示结点 的邻接结点集。若图 四、条件随机场 CRF - 图6 中结点对应的每个变量 都满足马尔可夫性,即:

      四、条件随机场 CRF - 图7

      则 构成了一个条件随机场。

    1. 理论上讲,图 四、条件随机场 CRF - 图8 可以具有任意结构,只要能表示标记变量之间的条件独立性关系即可。

      但在现实应用中,尤其是对标记序列建模时,最常用的是链式结构,即链式条件随机场chain-structured CRF

      如果没有特殊说明,这里讨论是基于链式条件随机场。

    2. 给定观测变量序列 四、条件随机场 CRF - 图9 ,链式条件随机场主要包含两种关于标记变量的团:

      • 单个标记变量与 构成的团: 四、条件随机场 CRF - 图10
      • 相邻标记变量与 构成的团: 四、条件随机场 CRF - 图11
    3. 与马尔可夫随机场定义联合概率的方式类似,条件随机场使用势函数和团来定义条件概率 。

      采用指数势函数,并引入特征函数feature function,定义条件概率:

      四、条件随机场 CRF - 图12

      其中:

      • :在已知观测序列情况下,两个相邻标记位置上的转移特征函数transition feature function

        • 它刻画了相邻标记变量之间的相关关系,以及观察序列 四、条件随机场 CRF - 图13 对它们的影响。
        • 位置变量 也对势函数有影响。比如:已知观测序列情况下,相邻标记取值(代词,动词)出现在序列头部可能性较高,而(动词,代词)出现在序列头部的可能性较低。
      • 四、条件随机场 CRF - 图14 :在已知观察序列情况下,标记位置 上的状态特征函数status feature function

        • 它刻画了观测序列 四、条件随机场 CRF - 图15 对于标记变量的影响。
        • 位置变量 也对势函数有影响。比如:已知观测序列情况下,标记取值 名词出现在序列头部可能性较高,而 动词 出现在序列头部的可能性较低。
      • 四、条件随机场 CRF - 图16 为参数, 为规范化因子(它用于确保上式满足概率的定义)。

        四、条件随机场 CRF - 图17 为转移特征函数的个数, 为状态特征函数的个数。

    4. 特征函数通常是实值函数,用来刻画数据的一些很可能成立或者预期成立的经验特性。

      一个特征函数的例子(词性标注):

      四、条件随机场 CRF - 图18

      • 转移特征函数刻画的是:第 个观测值 四、条件随机场 CRF - 图19 为单词 "knock" 时,相应的标记 和 四、条件随机场 CRF - 图20 很可能分别为 [V][P]
      • 状态特征函数刻画的是: 第 个观测值 四、条件随机场 CRF - 图21 为单词 "knock" 时,标记 很可能为 [V]
    5. 条件随机场与马尔可夫随机场均使用团上的势函数定义概率,二者在形式上没有显著区别。

      条件随机场处理的是条件概率,马尔可夫随机场处理的是联合概率。

    6. 四、条件随机场 CRF - 图22 的形式类似于逻辑回归。事实上,条件随机场是逻辑回归的序列化版本。

      • 逻辑回归是用于分类问题的对数线性模型。
      • 条件随机场是用于序列化标注的对数线性模型。

    4.1.1 CRF 的简化形式

    1. 注意到条件随机场中的同一个特征函数在各个位置都有定义,因此可以对同一个特征在各个位置求和,将局部特征函数转化为一个全局特征函数。

      这样就可以将条件随机场写成权值向量和特征向量的内积形式,即条件随机场的简化形式。

    2. 设有 个转移特征函数, 四、条件随机场 CRF - 图23 个状态特征函数。令 ,定义:

      四、条件随机场 CRF - 图24

      对转移与状态函数在各个位置 求和,记作:

      四、条件随机场 CRF - 图25

      其中 为标记变量序列, 四、条件随机场 CRF - 图26 为观测变量序列。

      该式子刻画的是特征函数在所有位置上的和,可以理解为特征函数在所有位置上的得的总分。

    3. 用 表示特征 四、条件随机场 CRF - 图27 的权值,即:

      则条件随机场可以简化为:

      四、条件随机场 CRF - 图28

      其中 , 四、条件随机场 CRF - 图29 表示对所有可能的标记序列进行求和。

    4. 定义权值向量为 ,定义全局特征向量为:

      四、条件随机场 CRF - 图30

      则条件随机场可以简化为:

      其中 四、条件随机场 CRF - 图31 , 表示对所有可能的标记序列进行求和。

      四、条件随机场 CRF - 图32 的物理意义为:已知序列 的条件下,标记序列为 四、条件随机场 CRF - 图33 的未归一化的概率。它就是每个特征函数的总分的加权和(权重为特征函数的权重)。

    4.1.2 CRF 的矩阵形式

    1. 假设标记变量 的取值集合为 四、条件随机场 CRF - 图34, 其中 是标记的取值个数。

      对于观测变量序列和标记变量序列的每个位置 四、条件随机场 CRF - 图35 ,定义一个 阶矩阵:

      四、条件随机场 CRF - 图36

      其中: 。i其中:

      四、条件随机场 CRF - 图37

      物理意义是:在位置 四、条件随机场 CRF - 图38 ,所有转移特征函数值加上所有状态特征函数值。对其取指数则是非规范化概率。

    2. 引入两个特殊的状态标记:起点状态标记 表示起始符,终点状态标记 四、条件随机场 CRF - 图39 表示终止符。

      • 表示第 0 个位置的标记为 四、条件随机场 CRF - 图40 ,第 1个位置的标记为 。

        第 0 个位置是一个虚拟符号,表示这是一个新的序列。因为 四、条件随机场 CRF - 图41 状态取值只能是 ,则:

        四、条件随机场 CRF - 图42

      • 表示第 四、条件随机场 CRF - 图43 个位置的标记为 ,第 四、条件随机场 CRF - 图44 个位置的标记为 。由于序列长度为 四、条件随机场 CRF - 图45,因此第 个位置是一个虚拟符号,表示该序列结束。因为 四、条件随机场 CRF - 图46 的取值只能是 ,则:

        四、条件随机场 CRF - 图47

        因此 和 四、条件随机场 CRF - 图48 中包含大量的 0 。

    3. 给定观测变量序列 , 标记变量序列 四、条件随机场 CRF - 图49 可以这样产生:

      • 首先位于起点状态 。
      • 然后从 四、条件随机场 CRF - 图50 转移到 。
      • 最后到达终点状态 四、条件随机场 CRF - 图51

      于是条件概率为:

      其中 四、条件随机场 CRF - 图52 是以 为起点,以 四、条件随机场 CRF - 图53 为终点的所有标记路径的非规范化概率 之和 :

      四、条件随机场 CRF - 图54

      它也等于矩阵乘积 的结果的第一个元素(位于第一行第一列)的元素。

      根据 四、条件随机场 CRF - 图55 和 的性质,该结果矩阵只有第一个元素非零,其他所有元素都为 0)。

    4. 如下图所示,上半部分是条件随机场的示意图,下半部分是条件随机场所有可能的路径。

      • 除了起点和终点外,每个节点都有 四、条件随机场 CRF - 图56 个可能的取值。
      • 起点取值只能是 , 终点取值只能是 四、条件随机场 CRF - 图57
      • 红色粗实线给出了从起点到终点的一条可能的路径。

    5. 矩阵形式和前述形式是统一的:

      四、条件随机场 CRF - 图58

      与前述形式区别在于:这里由于引入了两个特殊的状态标记:起点状态标记、终点状态标记,从而累加的区间为 。

      由于引入的状态标记是人为引入且状态固定的,因此相当于引入了常量。它会相应的改变 四、条件随机场 CRF - 图59 的值,最终结果是统一的。

    4.2 概率计算问题

    4.2.1 概率计算

    1. 条件随机场的概率计算问题是:已知条件随机场 ,其中 四、条件随机场 CRF - 图60 的取值集合为 , 给定观测值序列 四、条件随机场 CRF - 图61 , 给定标记值序列 ,其中 四、条件随机场 CRF - 图62

      • 计算条件概率: 。
      • 计算条件概率: 四、条件随机场 CRF - 图63

      类似隐马尔可夫模型,可以通过前向-后向算法解决条件随机场的概率计算问题。

    2. 采用 CRF 的矩阵形式,对于每个指标 ,(包括了起点标记和终点标记):

      • 定义前向概率 四、条件随机场 CRF - 图64 :表示在位置 的标记是 四、条件随机场 CRF - 图65 ,并且到位置 的前半部分标记序列的非规范化概率。

        由于 四、条件随机场 CRF - 图66 的取值有 个,因此前向概率向量 四、条件随机场 CRF - 图67 是 维列向量:

        四、条件随机场 CRF - 图68

      • 定义后向概率 表示在位置 四、条件随机场 CRF - 图69 的标记是 ,并且从位置 四、条件随机场 CRF - 图70 的后半部分标记序列的非规范化概率。

        由于 的取值有 四、条件随机场 CRF - 图71 个,因此后向概率向量 也是 四、条件随机场 CRF - 图72 维列向量:

    3. 根据 CRF 的矩阵形式, 前向概率 四、条件随机场 CRF - 图73 的递推形式为:

      • 其物理意义是:所有从起点到 四、条件随机场 CRF - 图74 的路径再通过 转移到 四、条件随机场 CRF - 图75

      • 根据前向概率向量 的定义,则也可以表示为:

        四、条件随机场 CRF - 图76

    4. 根据 CRF 的矩阵形式,后向概率 的递归形式为:

      四、条件随机场 CRF - 图77

      • 其物理意义可以这样理解:从 到终点的路径可以这样分解:

        • 先通过 四、条件随机场 CRF - 图78 从 到 四、条件随机场 CRF - 图79
        • 再通过 到终点。
        • 对所有可能的 四、条件随机场 CRF - 图80 累加,即得到从 到终点的路径。
      • 根据后向概率向量 四、条件随机场 CRF - 图81 的定义,则也可以表示为:

    5. 根据前向-后向向量定义可以得到:四、条件随机场 CRF - 图82 。其中:

      • CRF 的矩阵形式中的归一化因子。
    6. 概率计算: 给定观测序列 四、条件随机场 CRF - 图83 ,给定标记值序列 ,其中 四、条件随机场 CRF - 图84 ,据前向-后向向量的定义,有:

      • 标记序列在位置 处标记 四、条件随机场 CRF - 图85 的条件概率为:

      • 标记序列在位置 四、条件随机场 CRF - 图86 处标记 ,且在位置 四、条件随机场 CRF - 图87 处标记 的条件概率为:

        其中:四、条件随机场 CRF - 图88

    4.2.2 期望值计算

    1. 利用前向-后向向量可以计算特征函数 关于联合分布四、条件随机场 CRF - 图89 和条件分布 的数学期望。

      • 特征函数 四、条件随机场 CRF - 图90 关于条件分布 的数学期望为:

        四、条件随机场 CRF - 图91

        其中 。

        如果合并所有的位置 四、条件随机场 CRF - 图92 ,则有特征函数 的期望为:

        四、条件随机场 CRF - 图93

        其物理意义为:在指定观测序列 的条件下,特征 四、条件随机场 CRF - 图94 的均值。

      • 假设 的经验分布为 四、条件随机场 CRF - 图95 ,则特征函数 关于联合分布四、条件随机场 CRF - 图96 的数学期望为:

        如果合并所有的位置 四、条件随机场 CRF - 图97 ,则有特征函数 的期望为:

        四、条件随机场 CRF - 图98

        其物理意义为:在所有可能观测序列和标记序列中, 预期发生的次数。

    2. 上述两个式子是特征函数数学期望的一般计算公式。

      • 对于转移特征函数 四、条件随机场 CRF - 图99 , 可以将上式中的 替换成 四、条件随机场 CRF - 图100,即得到转移特征函数的两个期望。
      • 对于状态特征函数 ,可以将 四、条件随机场 CRF - 图101 替换成 ,即得到状态特征函数的两个期望。
    1. 条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括:极大似然估计、正则化的极大似然估计。

      具体的实现算法有:改进的迭代尺度法、 梯度下降法、拟牛顿法。

    2. 给定训练数据集 四、条件随机场 CRF - 图102,其中:

      • 代表第 四、条件随机场 CRF - 图103 个观测序列,其长度为 。

        四、条件随机场 CRF - 图104 代表第 个观测序列的第 四、条件随机场 CRF - 图105 个位置的值。

      • 代表第 四、条件随机场 CRF - 图106 个标记序列,其长度为 。

        四、条件随机场 CRF - 图107 代表第 个标记序列的第 四、条件随机场 CRF - 图108 个位置的值,其中 。

      • 同一组观测序列和标记序列的长度相同,不同组的观测序列之间的长度可以不同。

      给定 四、条件随机场 CRF - 图109 个特征函数 ,其中:

      四、条件随机场 CRF - 图110

      而 为转移特征函数,四、条件随机场 CRF - 图111 为状态特征函数。

      条件随机场的学习问题是:给定训练数据集 和 四、条件随机场 CRF - 图112 个特征函数,估计条件随机场的模型参数。即模型中的参数 :

      四、条件随机场 CRF - 图113

      其中 为归一化参数。

      注意到:四、条件随机场 CRF - 图114 包含参数 ,同时 四、条件随机场 CRF - 图115 也受 影响,因此 将 四、条件随机场 CRF - 图116 记作 。因此将待求解的模型重新写作:

      四、条件随机场 CRF - 图117

    3. 考虑观测序列和标记序列 , 根据经验分布 四、条件随机场 CRF - 图118 , 该对序列出现的次数为 。

      • 利用条件概率和经验分布 四、条件随机场 CRF - 图119 ,出现如此多次数的 概率为:

      四、条件随机场 CRF - 图120

      • 考虑整个训练集,则训练数据集 发生的概率为:四、条件随机场 CRF - 图121

        其对数似然函数为:

      • 因为最终需要求解对数似然的最大值,考虑到 四、条件随机场 CRF - 图122为常数,所以去掉该项,则有:

        忽略约去常系数 四、条件随机场 CRF - 图123,则有: 。

        与最大熵情况类似,这里使用了经验分布 四、条件随机场 CRF - 图124 ,但是并没有使用 来作为 四、条件随机场 CRF - 图125 的估计值,因为我们是针对该条件概率建模。

      • 根据 的定义,有:

        四、条件随机场 CRF - 图126

        其形式和最大熵算法完全一致,因此可以直接使用最大熵算法的学习算法。

    4. 给定训练数据集 ,则可以获取经验概率分布 四、条件随机场 CRF - 图127 和 ,从而可以通过极大化训练数据的对数似然函数 四、条件随机场 CRF - 图128 来求解模型。

    4.3.1 改进的迭代尺度法

    1. IIS 算法通过迭代的方法不断优化对数似然函数增量的下界,达到极大化对数似然函数的目的。具体推导可以参看最大熵算法。

    2. 假设模型的当前参数向量是 , 参数向量的增量为 四、条件随机场 CRF - 图129。更新的参数向量为 。

      IIS 推导的结果为:每一轮迭代中, 四、条件随机场 CRF - 图130 满足:

      四、条件随机场 CRF - 图131 放到 右侧,重新整理为:

      四、条件随机场 CRF - 图132

      其中:

      • :为所有特征函数在序列 四、条件随机场 CRF - 图133 的所有位置的总和。
      • :为特征函数 四、条件随机场 CRF - 图134 在训练集 中对所有序列样本的所有位置上的求和。
    3. CRF学习的改进迭代尺度算法IIS

      • 输入:

        • 特征函数 四、条件随机场 CRF - 图135
        • 经验分布
        • 经验分布 四、条件随机场 CRF - 图136
      • 输出:

        • 参数估计值
        • 模型 四、条件随机场 CRF - 图137
      • 算法步骤:

        • 初始化:对所有的 ,取值 四、条件随机场 CRF - 图138

        • 迭代,迭代的停止条件是:所有 都收敛。迭代步骤为:

          • 对每一个 四、条件随机场 CRF - 图139 ,从方程中计算出 :

            四、条件随机场 CRF - 图140

          • 更新 的值: 四、条件随机场 CRF - 图141 。如果不是所有 都收敛,继续迭代。

        • 迭代终止时,四、条件随机场 CRF - 图142

    4.3.1.1 算法 S
    1. IIS算法中, 为所有特征函数在序列 四、条件随机场 CRF - 图143 的所有位置的总和。对于不同的数据 , 四、条件随机场 CRF - 图144 很有可能不同。

      选择一个常数 ,定义松弛特征:四、条件随机场 CRF - 图145

      • 通常选择足够大的常数 ,使得对于训练数据集的所有数据 四、条件随机场 CRF - 图146 , 成立。
      • 当每个特征函数的取值范围都是 四、条件随机场 CRF - 图147 时,则可以将 选取为:四、条件随机场 CRF - 图148 。其物理意义为:所有潜在的特征函数取 1 的位置的总数,乘以特征函数的数量。
    2. 将松弛特征代入,有:

      考虑到 四、条件随机场 CRF - 图149 在 上恒成立,因此有:

      四、条件随机场 CRF - 图150

      因此对于下面两个方程的解:

      必然有: 四、条件随机场 CRF - 图151

      如果 ,则有:

      四、条件随机场 CRF - 图152

      因此可以将 作为 四、条件随机场 CRF - 图153 的一个近似。其物理意义为:更新 的值( 四、条件随机场 CRF - 图154 )时,选择一个较小的更新幅度。

    3. 对于方程 ,其解为:

      四、条件随机场 CRF - 图155

      其中 。

    4. CRF学习的算法 S

      • 输入:

        • 特征函数 四、条件随机场 CRF - 图156
        • 经验分布
        • 经验分布 四、条件随机场 CRF - 图157
      • 输出:

        • 参数估计值
        • 模型 四、条件随机场 CRF - 图158
      • 算法步骤:

        • 初始化:对所有的 ,取值 四、条件随机场 CRF - 图159

        • 迭代,迭代的停止条件是:所有 都收敛。迭代步骤为:

          • 对每一个 四、条件随机场 CRF - 图160 ,计算 :

            四、条件随机场 CRF - 图161

            其中 。

          • 更新 四、条件随机场 CRF - 图162 的值: 。如果不是所有 四、条件随机场 CRF - 图163 都收敛,继续迭代。

        • 迭代终止时, 。

    4.3.1.2 算法 T
    1. 在算法S中,通常需要使常数 四、条件随机场 CRF - 图164 取得足够大,此时每一步迭代的增量向量会较小,算法收敛会变慢。

      算法T试图解决这个问题。

    2. 算法T 对每个观测序列 ,计算其特征总数最大值 四、条件随机场 CRF - 图165

      四、条件随机场 CRF - 图166 ,由于 ,则对于下面两个方程的解:

      四、条件随机场 CRF - 图167

      必然有: ,原因与算法S 相同。

      因此可以将 四、条件随机场 CRF - 图168 作为 的一个近似。其物理意义为:更新 四、条件随机场 CRF - 图169 的值( )时,选择一个较小的更新幅度。

      由于 四、条件随机场 CRF - 图170,因此算法 T 求解的 会相对于算法 S 更大,使得算法收敛的更快。

    3. 四、条件随机场 CRF - 图171

      令: ,则有:

      四、条件随机场 CRF - 图172

      它就是一个以 为变量的非线性方程,求解该方程即可得到 四、条件随机场 CRF - 图173 的解。

    4. CRF学习的算法 T

      • 输入:

        • 特征函数
        • 经验分布 四、条件随机场 CRF - 图174
        • 经验分布
      • 输出:

        • 参数估计值 四、条件随机场 CRF - 图175
        • 模型
      • 算法步骤:

        • 初始化:对所有的 四、条件随机场 CRF - 图176 ,取值 。

        • 迭代,迭代的停止条件是:所有 四、条件随机场 CRF - 图177 都收敛。迭代步骤为:

          • 对每一个 ,从方程中计算出 四、条件随机场 CRF - 图178

          • 更新 四、条件随机场 CRF - 图179 的值: 。如果不是所有 四、条件随机场 CRF - 图180 都收敛,继续迭代。

    4.3.2 拟牛顿法

    1. 条件随机场的对数似然函数为:

      其中:四、条件随机场 CRF - 图181

      学习的优化目标是最大化对数似然函数 。

      令:

      四、条件随机场 CRF - 图182

      于是学习优化目标是最小化 。

    2. 计算梯度:

      四、条件随机场 CRF - 图183

    3. CRF 学习的 算法:

      • 输入:

        • 特征函数
        • 经验分布 四、条件随机场 CRF - 图184
        • 目标函数
        • 梯度 四、条件随机场 CRF - 图185
        • 精度要求
      • 输出:

        • 最优参数值 四、条件随机场 CRF - 图186
        • 最优模型
      • 算法步骤:

        • 选定初始点 四、条件随机场 CRF - 图187,取 为正定对阵矩阵,置 四、条件随机场 CRF - 图188

        • 计算 :

          • 四、条件随机场 CRF - 图189 ,停止计算,得到

          • 四、条件随机场 CRF - 图190:

            • 由 求得 四、条件随机场 CRF - 图191

            • 一维搜索:求出 : 四、条件随机场 CRF - 图192

            • 计算 四、条件随机场 CRF - 图193。 若 ,停止计算,得到 四、条件随机场 CRF - 图194

            • 否则计算 :

              四、条件随机场 CRF - 图195

              其中:

            • 四、条件随机场 CRF - 图196 ,继续迭代。

    4.4 预测算法

    1. 给定条件随机场 以及输入序列(观测序列) 四、条件随机场 CRF - 图197 的情况下,求条件概率最大的输出序列(标记序列) ,其中 四、条件随机场 CRF - 图198

    2. 根据条件随机场的简化形式:

      其中 四、条件随机场 CRF - 图199

      于是:

      考虑到 四、条件随机场 CRF - 图200 与 无关,于是:

      四、条件随机场 CRF - 图201

      于是:条件随机场的预测问题就成为求非规范化概率最大的最优路径问题。

      其中:

      其中就是非规范化概率。

    3. 定义局部特征向量:

      四、条件随机场 CRF - 图202

      其物理意义为:每个特征函数在 的条件下,在位置 四、条件随机场 CRF - 图203 处的取值组成的向量。

      于是: 。

      为了便于统一描述,这里引入了两个人工标记: 四、条件随机场 CRF - 图204 。它们具有唯一的、固定的取值(不是随机变量)。

    4. 维特比算法用动态规划来求解条件随机场的预测问题。它用动态规划求解概率最大路径(最优路径),这时一条路径对应着一个标记序列。

      • 根据动态规划原理,最优路径具有这样的特性:如果最优路径在位置 通过结点 四、条件随机场 CRF - 图205, 则这一路径从结点 到终点 四、条件随机场 CRF - 图206 的部分路径,对于从 到 四、条件随机场 CRF - 图207 的所有可能路径来说,也必须是最优的。

      • 只需要从位置 开始,递推地计算从位置 1 到位置 四、条件随机场 CRF - 图208 且位置 的标记为 四、条件随机场 CRF - 图209 的各条部分路径的最大非规范化概率。

        于是在位置 的最大非规范化概率即为最优路径的非规范化概率 四、条件随机场 CRF - 图210 ,最优路径的终结点 也同时得到。

      • 之后为了找出最优路径的各个结点,从终结点 四、条件随机场 CRF - 图211 开始,由后向前逐步求得结点 ,得到最优路径 四、条件随机场 CRF - 图212

    5. 假设标记 的取值集合为 四、条件随机场 CRF - 图213, 其中 是标记的取值个数。

      • 首先求出位置 1 的各个标记值的非规范化概率:

      四、条件随机场 CRF - 图214

      • 根据递推公式,求出到位置 的各个标记取值的非规范化概率的最大值,同时记录非规范化概率最大值的路径:

        四、条件随机场 CRF - 图215

        • 其中 为:到位置 四、条件随机场 CRF - 图216 、且标记取值为 的非规范化概率的最大值。
        • 四、条件随机场 CRF - 图217 为:到位置 且标记取值为 四、条件随机场 CRF - 图218 的最优路径中,位置 处的标记的取值的编号。
      • 四、条件随机场 CRF - 图219 时,这时求得非规范化概率的最大值,以及最优路径的终点:

      • 根据最优路径得到:四、条件随机场 CRF - 图220

        最终得到最优路径: 。

    6. CRF 预测的维特比算法:

        • 输入:

          • 模型特征向量 四、条件随机场 CRF - 图221 ,其中标记 的取值集合为 四、条件随机场 CRF - 图222
          • 权值向量
          • 观测序列 四、条件随机场 CRF - 图223
        • 输出: 最优路径

        • 算法步骤:

          • 初始化:四、条件随机场 CRF - 图224
          • 递推:对 :

          四、条件随机场 CRF - 图225

          • 终止:

          • 回溯路径:四、条件随机场 CRF - 图226
          • 返回路径 : 。
    1. 在词性标注任务中,给定单词序列 四、条件随机场 CRF - 图227,需要给出每个单词对应的词性 。如: 他们 吃 苹果 对应的标注序列为 代词 动词 名词

      • 给定一个单词序列,可选的标注序列有很多种,需要从中挑选出一个最靠谱的作为标注结果。
      • 标注序列是否靠谱,是通过利用特征函数来对序列打分来获得。序列的得分越高(意味着非规范化概率越大),则越靠谱。
    2. CRF 中的特征函数接受四个参数:

      • 单词序列 四、条件随机场 CRF - 图228
      • 位置 ,表示序列 四、条件随机场 CRF - 图229 中第 个单词。
      • 标记 四、条件随机场 CRF - 图230 ,表示第 个单词的标注词性。
      • 标记 四、条件随机场 CRF - 图231,表示第 个单词的标注词性。

      特征函数的输出值为 四、条件随机场 CRF - 图232,表示满足/不满足这个特征。

    3. 每个特征函数对应一个权重 。

      • 若权重为正,则说明该特征贡献一个正的分数;如果权重为负,则说明该特征贡献一个负的分数。
      • 权重越大,则说明该特征靠谱的可能性越大(对于正的权重),或者该特征不靠谱的程度越大(对于负的权重)。
      • 该权重是模型的参数,从训练集中训练得到。

    4.6 CRF 与 HMM 模型

    1. 设已知隐马尔科夫模型的参数,则给定观察序列 四、条件随机场 CRF - 图233,以及标记序列 ,其出现的概率为:

      四、条件随机场 CRF - 图234

      • 对于 HMM 中的每一个转移概率 ,定义特征函数:

        四、条件随机场 CRF - 图235

        定义其权重为: 。

      • 对于 HMM中每一个发射概率 四、条件随机场 CRF - 图236,定义特征函数:

        定义其权重为:四、条件随机场 CRF - 图237

      • 则有:

        其中 四、条件随机场 CRF - 图238 为人工引入的 结点。

        因此 四、条件随机场 CRF - 图239 的物理意义为:所有特征函数在所有位置之和。将其归一化之后就得到了CRF的公式。

    2. 从推导中可以看出:每一个HMM模型都等价于某个CRF模型。

      • CRF模型比HMM模型更强大。

        因为CRF模型能定义数量更多、更丰富多样的特征函数,能使用任意形式的权重。

      • HMM模型中当前的标注结果只依赖于当前的单词,以及前一个标注结果。

      • HMM模型转换过来的形式中,权重是条件概率的对数,因此权重都是负的。

    3. HMM 是生成式模型,而CRF是判别式模型

      • 生成式模型对联合概率建模,可以生成样本。

      • 判别式模型对条件概率建模,无法生成样本,只能判断分类。