1. 连续随机变量的均匀分布: 假设 五、常见概率分布 - 图1[a,b]上均匀分布,则其概率密度函数(probability density function:PDF)为:

      .

    5.2 伯努利分布

    1. 伯努利分布:参数为 五、常见概率分布 - 图2。随机变量 。

      • 概率分布函数为:五、常见概率分布 - 图3
      • 期望: 。方差: 五、常见概率分布 - 图4
    2. 分布:它是二项分布的推广,也称作multinoulli分布。假设随机变量 ,其概率分布函数为:

      五、常见概率分布 - 图5

      其中 为参数,它满足 五、常见概率分布 - 图6,且 。

    5.3 二项分布

    1. 假设试验只有两种结果:成功的概率为 五、常见概率分布 - 图7,失败的概率为 。 则二项分布描述了:独立重复地进行 五、常见概率分布 - 图8 次试验中,成功 次的概率。

      • 概率质量函数:

        五、常见概率分布 - 图9

      • 期望: 。 方差: 五、常见概率分布 - 图10

    5.4 高斯分布

    1. 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择:

      • 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。
      • 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。

    5.4.1 一维正态分布

    1. 正态分布的概率密度函数为 :

      其中 五、常见概率分布 - 图11 为常数。

      • 若随机变量 的概率密度函数如上所述,则称 五、常见概率分布 - 图12 服从参数为 的正态分布或者高斯分布,记作 五、常见概率分布 - 图13
      • 特别的,当 时,称为标准正态分布,其概率密度函数记作 五、常见概率分布 - 图14,分布函数记作 。
      • 为了计算方便,有时也记作:五、常见概率分布 - 图15 ,其中 。
    2. 正态分布的概率密度函数性质:

      • 曲线关于 五、常见概率分布 - 图16 对称。
      • 曲线在 时取最大值。
      • 参数 五、常见概率分布 - 图17 决定曲线的位置; 决定图形的胖瘦。

      五、常见概率分布 - 图18

    3. 若 则:

      • 五、常见概率分布 - 图19
      • 期望: 。方差:五、常见概率分布 - 图20
    4. 有限个相互独立的正态随机变量的线性组合仍然服从正态分布:若随机变量 且它们相互独立,则它们的线性组合:五、常见概率分布 - 图21 仍然服从正态分布(其中 不全是为 0 的常数),且:五、常见概率分布 - 图22

    5.4.2 多维正态分布

    1. 二维正态随机变量 的概率密度为:

      五、常见概率分布 - 图23

      根据定义,可以计算出:

    2. 引入矩阵:

      五、常见概率分布 - 图24

      五、常见概率分布 - 图25 的协方差矩阵。其行列式为 ,其逆矩阵为:

      五、常见概率分布 - 图26

      于是 的概率密度函数可以写作 五、常见概率分布 - 图27 表示矩阵的转置:

      其中:

      • 均值 五、常见概率分布 - 图28 决定了曲面的位置(本例中均值都为0)。

      • 标准差 决定了曲面的陡峭程度(本例中方差都为1)。

      • 五、常见概率分布 - 图29 决定了协方差矩阵的形状,从而决定了曲面的形状。

        • 此时的联合分布概率函数形状如下图所示,曲面在 平面的截面是个圆形:

          五、常见概率分布 - 图30

        • 时,协方差矩阵对角线非零,其他位置非零。此时表示随机变量之间相关。

          此时的联合分布概率函数形状如下图所示,曲面在 五、常见概率分布 - 图31 平面的截面是个椭圆,相当于圆形沿着直线 方向压缩 :

          五、常见概率分布 - 图32

      • 时,协方差矩阵对角线非零,其他位置非零。

        此时表示随机变量之间完全相关。此时的联合分布概率函数形状为:曲面在 五、常见概率分布 - 图33 平面的截面是直线 ,相当于圆形沿着直线 五、常见概率分布 - 图34 方向压缩成一条直线 。

        由于 会导致除数为 0,因此这里给出 五、常见概率分布 - 图35

    3. 多维正态随机变量 五、常见概率分布 - 图36 ,引入列矩阵:

      五、常见概率分布 - 图37 为 的协方差矩阵。则:

      五、常见概率分布 - 图38

      记做 : 。

    4. 五、常见概率分布 - 图39 维正态变量具有下列四条性质:

      • 维正态变量的每一个分量都是正态变量;反之,若 五、常见概率分布 - 图40 都是正态变量,且相互独立,则 是 五、常见概率分布 - 图41 维正态变量。

      • 维随机变量 五、常见概率分布 - 图42 服从 维正态分布的充要条件是: 五、常见概率分布 - 图43 的任意线性组合: 服从一维正态分布,其中 五、常见概率分布 - 图44 不全为 0 。

      • 若 服从 五、常见概率分布 - 图45 维正态分布,设 是 五、常见概率分布 - 图46 的线性函数,则 也服从多维正态分布。

        这一性质称为正态变量的线性变换不变性。

      • 五、常见概率分布 - 图47 服从 维正态分布,则 五、常见概率分布 - 图48 相互独立 五、常见概率分布 - 图49 两两不相关。

    1. 拉普拉斯分布:

      • 概率密度函数: 。
      • 期望: 五、常见概率分布 - 图50 。方差: 。

      五、常见概率分布 - 图51

    5.6 泊松分布

    1. 假设已知事件在单位时间(或者单位面积)内发生的平均次数为 ,则泊松分布描述了:事件在单位时间(或者单位面积)内发生的具体次数为 五、常见概率分布 - 图52 的概率。

      • 概率质量函数: 。
      • 期望: 五、常见概率分布 - 图53。 方差: 。

      五、常见概率分布 - 图54

    2. 用均匀分布模拟泊松分布:

      该函数:

      • 首先随机性给出了 lmd*tm个事件发生的时间(时间位于区间)内。
      • 然后统计每个单位时间区间内,事件发生的次数。
      • 然后统计这些次数出现的频率。
      • 最后将这个频率与理论上的泊松分布的概率质量函数比较。

    5.7 指数分布

    1. 若事件服从泊松分布,则该事件前后两次发生的时间间隔服从指数分布。由于时间间隔是个浮点数,因此指数分布是连续分布。

      • 概率密度函数:( 为时间间隔)

        五、常见概率分布 - 图55

      • 期望: 。方差:五、常见概率分布 - 图56

    5.8 伽马分布

    1. 若事件服从泊松分布,则事件第 五、常见概率分布 - 图57 次发生和第 次发生的时间间隔为伽玛分布。由于时间间隔是个浮点数,因此指数分布是连续分布。

      • 概率密度函数:五、常见概率分布 - 图58, 为时间间隔 。
      • 期望: 五、常见概率分布 - 图59 。方差: 。
    2. 五、常见概率分布 - 图60

      记做 。其中 五、常见概率分布 - 图61 称作形状参数, 称作尺度参数。

      • 期望 五、常见概率分布 - 图62,方差 。
      • 五、常见概率分布 - 图63 时, 为递减函数。
      • 五、常见概率分布 - 图64 时, 为单峰函数。

      五、常见概率分布 - 图65

    3. 性质:

      • 当 时, 为 Erlang分布。
      • 五、常见概率分布 - 图66 时,就是参数为 的指数分布。
      • 五、常见概率分布 - 图67 时,就是常用的卡方分布。
    4. 伽马分布的可加性:设随机变量 相互独立并且都服从伽马分布: 五、常见概率分布 - 图68,则:

    5. 用均匀分布模拟伽玛分布:

    1. 贝塔分布是定义在 五、常见概率分布 - 图69 之间的连续概率分布。

      如果随机变量 服从贝塔分布,则其概率密度函数为:

      五、常见概率分布 - 图70

      记做 。

      • 众数为: 五、常见概率分布 - 图71
      • 期望为: ,方差为: 五、常见概率分布 - 图72

    5.10 狄拉克分布

    1. 狄拉克分布:假设所有的概率都集中在一点 五、常见概率分布 - 图73 上,则对应的概率密度函数为: 。

      其中 五、常见概率分布 - 图74 为狄拉克函数,其性质为:

    2. 狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本 五、常见概率分布 - 图75,则定义经验分布函数:

      它就是对每个样本赋予了一个概率质量 五、常见概率分布 - 图76

    3. 对于离散型随机变量的经验分布,则经验分布函数就是multinoulli分布,它简单地等于训练集中的经验频率。

    4. 经验分布的两个作用:

      • 通过查看训练集样本的经验分布,从而指定该训练集的样本采样的分布(保证采样之后的分布不失真)。
      • 经验分布就是使得训练数据的可能性最大化的概率密度函数。

    5.11 多项式分布与狄里克雷分布

    1. 多项式分布的质量密度函数:

      它是 五、常见概率分布 - 图77 的多项式展开的形式。

    2. 狄利克雷分布的概率密度函数:

    3. 可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:

      • 多项式分布是针对离散型随机变量,通过求和获取概率。
      • 狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。

    5.12 混合概率分布

    1. 混合概率分布:它组合了其他几个分量的分布来组成。

      • 在每次生成样本中,首先通过分布来决定选用哪个分量,然后由该分量的分布函数来生成样本。

      • 其概率分布函数为:

        五、常见概率分布 - 图78

        其中 为一个multinoulli分布,五、常见概率分布 - 图79 的取值范围就是各分量的编号。

    2. 前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子,此时 。

    3. 混合概率分布可以通过简单的概率分布创建更复杂的概率分布。一个常见的例子是混合高斯模型,其中 五、常见概率分布 - 图80 为高斯模型。每个分量都有对应的参数 。

      • 有些混合高斯模型有更强的约束,如 五、常见概率分布 - 图81,更进一步还可以要求 为一个对角矩阵。