1. 其中 四、EM 算法与 kmeans 模型 - 图1 是簇 的均值向量。

    2. 定义观测随机变量为 四、EM 算法与 kmeans 模型 - 图2 ,观测数据为 。定义隐变量为 四、EM 算法与 kmeans 模型 - 图3 ,它表示 所属的簇的编号。设参数 四、EM 算法与 kmeans 模型 - 图4, 则考虑如下的生成模型:

      其中 四、EM 算法与 kmeans 模型 - 图5 表示距离 最近的中心点所在的簇编号。即:

      • 四、EM 算法与 kmeans 模型 - 图6 最近的簇不是 代表的簇,则生成概率等于 0 。
    3. 计算后验概率:

      四、EM 算法与 kmeans 模型 - 图7

      • 若 最近的簇不是 四、EM 算法与 kmeans 模型 - 图8 代表的簇,则后验概率为 0 。
    4. 计算 函数:

      四、EM 算法与 kmeans 模型 - 图9

      设距离 最近的聚类中心为 四、EM 算法与 kmeans 模型 - 图10 ,即它属于簇 ,则有:

      四、EM 算法与 kmeans 模型 - 图11

      则有:

      定义集合 四、EM 算法与 kmeans 模型 - 图12 ,它表示属于簇 的样本的下标集合。则有:

      则有:

      四、EM 算法与 kmeans 模型 - 图13

      这刚好就是 k-means 算法的目标:最小化平方误差。