• 发生可能性较大的事件包含较少的信息。
      • 发生可能性较小的事件包含较多的信息。
      • 独立事件包含额外的信息 。
    1. 对于事件 ,定义自信息为:七、信息论 - 图1

      自信息仅仅处理单个输出,但是如果计算自信息的期望,它就是熵:

      记作 七、信息论 - 图2

      • 熵刻画了按照真实分布 来识别一个样本所需要的编码长度的期望(即平均编码长度)。

        如:含有4个字母 (A,B,C,D) 的样本集中,真实分布 七、信息论 - 图3,则只需要1位编码即可识别样本。

      • 对于离散型随机变量 ,假设其取值集合大小为 七、信息论 - 图4,则可以证明: 。

    2. 根据定义可以证明:七、信息论 - 图5

      即:描述 和 七、信息论 - 图6 所需要的信息是:描述 所需要的信息加上给定 七、信息论 - 图7 条件下描述 所需的额外信息。

    3. KL散度(也称作相对熵):对于给定的随机变量 七、信息论 - 图8,它的两个概率分布函数 和 七、信息论 - 图9 的区别可以用 散度来度量:

      • KL散度非负:当它为 0 时,当且仅当 P和是同一个分布(对于离散型随机变量),或者两个分布几乎处处相等(对于连续型随机变量)。

      • KL散度不对称:七、信息论 - 图10

        直观上看对于 ,当 七、信息论 - 图11 较大的地方, 也应该较大,这样才能使得 七、信息论 - 图12 较小。

    4. 交叉熵:。

      • 七、信息论 - 图13 刻画了错误分布 编码真实分布 七、信息论 - 图14 带来的平均编码长度的增量。
    5. 示例:假设真实分布 为混合高斯分布,它由两个高斯分布的分量组成。如果希望用普通的高斯分布 七、信息论 - 图15 来近似 ,则有两种方案:

      七、信息论 - 图16

      • 如果选择 七、信息论 - 图17,则:

        • 当 较大的时候 七、信息论 - 图18 也必须较大 。如果 较大时 七、信息论 - 图19 较小,则 较大。
        • 七、信息论 - 图20 较小的时候 可以较大,也可以较小。

        因此 七、信息论 - 图21 会贴近 的峰值。由于 七、信息论 - 图22 的峰值有两个,因此 无法偏向任意一个峰值,最终结果就是 七、信息论 - 图23 的峰值在 的两个峰值之间。

        七、信息论 - 图24

      • 如果选择 ,则:

        • 七、信息论 - 图25 较小的时候, 必须较小。如果七、信息论 - 图26 较小的时 较大,则 七、信息论 - 图27 较大。

        因此 会贴近 七、信息论 - 图28 的谷值。最终结果就是 会贴合 七、信息论 - 图29 峰值的任何一个。