1. 机器学习三要素:模型、策略、算法。
    1. 模型的解空间包含了所有可能的条件概率分布或者决策函数,因此解空间中的模型有无穷多个。

      • 模型为一个条件概率分布:

        解空间为条件概率的集合: 。其中:三、机器学习三要素 - 图1 为随机变量, 为输入空间, 三、机器学习三要素 - 图2 为输出空间。

        通常 是由一个参数向量 三、机器学习三要素 - 图3 决定的概率分布族: 。其中: 三、机器学习三要素 - 图4 只与 有关,称 三、机器学习三要素 - 图5 为参数空间。

      • 模型为一个决策函数:

        解空间为决策函数的集合: 。其中: 三、机器学习三要素 - 图6 为变量, 为输入空间, 三、机器学习三要素 - 图7 为输出空间。

        通常 是由一个参数向量 三、机器学习三要素 - 图8 决定的函数族: 。其中: 三、机器学习三要素 - 图9 只与 有关,称 三、机器学习三要素 - 图10 为参数空间。

    2. 将学习过程看作一个在解空间中进行搜索的过程,搜索目标就是找到与训练集匹配的解。

    1. 策略考虑的是按照什么样的准则学习,从而定义优化目标。

    3.2.1 损失函数

    1. 对于给定的输入 ,由模型预测的输出值 三、机器学习三要素 - 图11 与真实的标记值 可能不一致。此时,用损失函数度量错误的程度,记作 三、机器学习三要素 - 图12 ,也称作代价函数。

    2. 常用损失函数:

      • 损失函数:

      • 平方损失函数: 三、机器学习三要素 - 图13

      • 绝对损失函数:

      • 对数损失函数: 三、机器学习三要素 - 图14

        • 其物理意义是:二分类问题的真实分布与模型分布之间的交叉熵。

        • 如果它不为 1,则说明预测存在误差。越远离1,说明误差越大。

    3. 训练时采用的损失函数不一定是评估时的损失函数。但通常二者是一致的。

      因为目标是需要预测未知数据的性能足够好,而不是对已知的训练数据拟合最好。

    3.2.2 风险函数

    1. 通常损失函数值越小,模型就越好。但是由于模型的输入、标记都是随机变量,遵从联合分布 , 因此定义风险函数为损失函数的期望:

      三、机器学习三要素 - 图15

      其中 分别为输入空间和输出空间。

    2. 三、机器学习三要素 - 图16 的过程中要用到 ,但是 三、机器学习三要素 - 图17 是未知的。

      实际上如果它已知,则可以轻而易举求得条件概率分布,也就不需要学习。

    3.2.3 经验风险

    1. 经验风险也叫经验损失。

      给定训练集 ,模型关于 三、机器学习三要素 - 图18 的经验风险定义为:

      经验风险最小化 () 策略认为:经验风险最小的模型就是最优的模型。即:

      三、机器学习三要素 - 图19

    2. 经验风险是模型在 上的平均损失。根据大数定律,当 三、机器学习三要素 - 图20 时 。

      但是由于现实中训练集中样本数量有限,甚至很小,所以需要对经验风险进行矫正。

    3. 结构风险是在经验风险上叠加表示模型复杂度的正则化项(或者称之为罚项)。它是为了防止过拟合而提出的。

      给定训练集 三、机器学习三要素 - 图21,模型关于 的结构风险定义为:

      其中:

      • 三、机器学习三要素 - 图22 为模型复杂度,是定义在解空间 上的泛函。 三、机器学习三要素 - 图23 越复杂,则 越大。
      • 三、机器学习三要素 - 图24 为系数,用于权衡经验风险和模型复杂度。
    4. 结构风险最小化 () 策略认为:结构风险最小的模型是最优的模型。即:

    5. 结构风险最小化策略符合奥卡姆剃刀原理:能够很好的解释已知数据,且十分简单才是最好的模型。

    3.2.4 极大似然估计

    1. 极大似然估计就是经验风险最小化的例子。

    2. 已知训练集 三、机器学习三要素 - 图25,则出现这种训练集的概率为: 。

      根据 三、机器学习三要素 - 图26 出现概率最大,有:

      定义损失函数为:三、机器学习三要素 - 图27 ,则有:

      即:极大似然估计 = 经验风险最小化 。

    3.2.5 最大后验估计

    1. 最大后验估计就是结构风险最小化的例子。

    2. 已知训练集 三、机器学习三要素 - 图28,假设已知参数 的先验分布为 三、机器学习三要素 - 图29,则出现这种训练集的概率为: 。

      根据 三、机器学习三要素 - 图30 出现概率最大:

      定义损失函数为:三、机器学习三要素 - 图31 ;定义模型复杂度为 ;定义正则化系数为 三、机器学习三要素 - 图32 。则有:

      即:最大后验估计 = 结构风险最小化。