2.概率论基础 - 七、信息论 - 《AI算法工程师手册》

- 发生可能性较大的事件包含较少的信息。
- 发生可能性较小的事件包含较多的信息。
- 独立事件包含额外的信息。
对于事件，定义自信息为：。

自信息仅仅处理单个输出，但是如果计算自信息的期望，它就是熵：

记作。
- 熵刻画了按照真实分布来识别一个样本所需要的编码长度的期望（即平均编码长度）。
  
  如：含有4个字母 (A,B,C,D) 的样本集中，真实分布，则只需要1位编码即可识别样本。
- 对于离散型随机变量，假设其取值集合大小为，则可以证明：。
根据定义可以证明：。

即：描述和所需要的信息是：描述所需要的信息加上给定条件下描述所需的额外信息。
KL散度（也称作相对熵）：对于给定的随机变量，它的两个概率分布函数和的区别可以用散度来度量：
- KL散度非负：当它为 0 时，当且仅当 P和是同一个分布（对于离散型随机变量），或者两个分布几乎处处相等（对于连续型随机变量）。
- KL散度不对称：。
  
  直观上看对于，当较大的地方，也应该较大，这样才能使得较小。
交叉熵：。
- 刻画了错误分布编码真实分布带来的平均编码长度的增量。
示例：假设真实分布为混合高斯分布，它由两个高斯分布的分量组成。如果希望用普通的高斯分布来近似，则有两种方案：
- 如果选择，则：
  - 当较大的时候也必须较大。如果较大时较小，则较大。
  - 当较小的时候可以较大，也可以较小。
  因此会贴近的峰值。由于的峰值有两个，因此无法偏向任意一个峰值，最终结果就是的峰值在的两个峰值之间。
- 如果选择，则：
  - 当较小的时候，必须较小。如果较小的时较大，则较大。
  因此会贴近的谷值。最终结果就是会贴合峰值的任何一个。