13.EM算法 - 四、EM 算法与 kmeans 模型 - 《AI算法工程师手册》

其中是簇的均值向量。
定义观测随机变量为，观测数据为。定义隐变量为，它表示所属的簇的编号。设参数，则考虑如下的生成模型：

其中表示距离最近的中心点所在的簇编号。即：
- 若最近的簇不是代表的簇，则生成概率等于 0 。
计算后验概率：
- 若最近的簇不是代表的簇，则后验概率为 0 。
计算函数：

设距离最近的聚类中心为，即它属于簇，则有：

则有：

定义集合，它表示属于簇的样本的下标集合。则有：

则有：

这刚好就是 k-means 算法的目标：最小化平方误差。