PRML第十三章读书笔记——Sequential Data 状态空间模型、自回归模型/从左到右HMM/前向后向BW算法/和积算法/缩放因子/维特比算法、线性动态系统/卡尔曼滤波-平滑/粒子滤波-CSDN博客
PRML第十四章读书笔记——Combining Models 贝叶斯模型平均、委员会bagging、提升方法/AdaBoost、决策树、条件混合模型/混合线性回归/混合逻辑回归/【层次】混合专家模型_prml14-CSDN博客

实现 K-Means 和 GMM(高斯混合模型)两个模型
assignment-3 · 复旦大学-邱锡鹏/prml-21春 - 码云 - 开源中国 (gitee.com)

前馈神经网络
assignment-2 · 复旦大学-邱锡鹏/prml-21春 - 码云 - 开源中国 (gitee.com)

混合模型和EM

参考:

PRML读书会第九章 Mixture Models and EM – 我爱自然语言处理 (52nlp.cn)
PRML第九章读书笔记——Mixture Models and EM K均值/K中心点、高斯混合奇异性、EM观点下的高斯混合/K-means/混合伯努利分布/贝叶斯线性回归、推广EM算法-CSDN博客
PRML第九章笔记:混合模型和EM - 知乎 (zhihu.com)
机器学习无监督算法|高斯混合模型(GMM)的来龙去脉,看不懂来找我!当场推导 - 知乎 (zhihu.com)
隐变量是什么? - 知乎 (zhihu.com)

PRML第九章
混合模型 1构建复杂的概率分布框架 2用于数据聚类

  1. k均值算法
  2. 潜在变量模型寻找最大似然估计
    1. 一般方法:期望最大化即EM
      1. 高斯混合分布,非形式化的方法
      2. 基于潜在变量的处理方法
      3. 一般方式讨论EM算法

如果我们定义观测变量和潜在变量的⼀个联合概率分布,那么对应的观测变量本⾝的概率分 布可以通过求边缘概率的⽅法得到。

边缘化——现在,如果我们只关心观测变量X的概率分布,而不考虑潜在变量Z,我们可以通过对联合概率分布P(X, Z)进行边缘化得到。边缘化的过程就是将我们不关心的变量从联合概率分布中“消除”,得到我们关心的变量的概率分布。数学上,这可以通过对所有可能的潜在变量Z求和或求积分来实现。边缘化的目的是简化问题,使我们能够专注于我们真正关心的变量。

9.1 k均值聚类

  1. 目标函数。J = ! N n=1 ! K k=1 rnk#xn − µk#2 分别对应rnk的最优化和µk的最优化。 。⾸先,我们为µk选择⼀些初 始值。然后,在第⼀阶段,我们关于rnk最⼩化J,保持µk固定。在第⼆阶段,我们关于µk最⼩ 化J,保持rnk固定。不断重复这个⼆阶段优化直到收敛。我们会看到,更新rnk和更新µk的两个 阶段分别对应于EM算法中的E(期望)步骤和M(最⼤化)步骤。
  2. 令µk等于 类别k的所有数据点的均值。因此,上述步骤被称为K均值(K-means)算法。
  3. 重新为数据点分配聚类的步骤以及重新计算聚类均值的步骤重复进⾏,直到聚类的分配不改 变(或者直到迭代次数超过了某个最⼤值)。由于每个阶段都减⼩了⽬标函数J的值,因此算 法的收敛性得到了保证。然⽽,算法可能收敛到J的⼀个局部最⼩值⽽不是全局最⼩值
  4. ⼀个更好的初始化步骤是将聚类中⼼选择为由K个随机数据点组成的⼦集。K均值算法本⾝经常被⽤于在EM算法之前初始化⾼斯混合模型的参数
  5. 直接实现这⾥讨论的K均值算法会相当慢,因为在每个E步骤中,必须计算每个代表向量与 每个数据点之间的欧⼏⾥得距离。关于加速K均值算法,有很多⽅法被提出来……
  6. 批处理版本和在线随机算法
  7. K均值算法的基础是将平⽅欧⼏⾥得距离作为数据点与代表向量之间不相似程度的度量。这 不仅限制了能够处理的数据变量的类型(例如,它不能处理某些或全部变量表⽰类别标签的情 形),⽽且使得聚类中⼼的确定对于异常点不具有鲁棒性。
  8. 推广:K中⼼点算法

当数据点,位于两个聚类中⼼的⼤概中间的位置——强⾏将数据点分配到最 近的聚类不是最合适的。通过使⽤概率的⽅法,我们得到了对数据点聚 类的“软”分配,它反映了在最合适聚类分配上的不确定性。

9.1.1 图像分割与压缩

图像分割和图像压缩

  1. 分割算法简单地将图像中的每个像素看 做⼀个独⽴的数据点。注意,严格地说,这个空间不是欧⼏⾥得空间,因为通道亮度被限制在 区间[0, 1]。K均值的使⽤对于图像分割来说不是⼀个 特别复杂的⽅法,因为它没有考虑不同像素的空间上的近似性。
  2. ⽆ 损 数 据 压 缩 (lossless data compression)与有损数据压缩(lossy data compression)。每个数据点都根据它最近的中⼼µk确定。新的数据点可以类似地压缩。不直接传递原始像素亮度 向量,⽽是传递最近的向量µk的亮度。如果我们的⽬标是⽣成⼀个好的 图像压缩算法,那么更好的⽅法是考虑相邻像素组成的⼩块,例如5 × 5,从⽽利⽤了⾃然图像 中相邻像素之间存在的相关性。

9.2 混合⾼斯

2.3.9节,我们将⾼斯混合模型看成⾼斯分量的简单线性叠加,⽬标是提供⼀类⽐单独的⾼ 斯分布更强⼤的概率模型。

  1. 因为高斯混合模型本质上是由多个高斯分布组成的模型,每个高斯分布被称为一个分量。先来了解一下高斯分布。高斯分布是一种钟形曲线,它由两个参数完全描述:均值(表示曲线的中心位置)和标准差(表示曲线的宽度)。高斯混合模型就是多个这样的高斯分布的组合.

  2. 作者在这里的目标是提供一种比单独的高斯分布更强大的概率模型。为什么呢?因为有些复杂的数据分布不能够被单个简单的高斯分布完美地描述。但是,通过组合多个高斯分布,我们可以更灵活地适应各种不规则的数据形状。

  3. 这就是为什么使用高斯混合模型的原因。每个高斯分量可以负责模拟数据中的一个局部特征,而它们的叠加则能够更好地适应整体数据分布。这种灵活性使得高斯混合模型在许多模式识别和聚类任务中表现出色。

  4. 简要介绍高斯混合模型(GMM):

    • 定义GMM是由多个高斯分布组成的概率模型。
    • 提到GMM适用于建模复杂的数据分布,因为它可以灵活地适应不规则的数据形状。
  5. 解释混合高斯的数学表示:

    • 引入混合系数(mixture coefficients)表示每个高斯分量在整体混合中的权重。
    • 介绍高斯分布的参数,包括均值和协方差矩阵。
  6. GMM的概率密度函数:

    • 展示GMM的概率密度函数形式,说明它是各个高斯分量概率密度函数的线性组合。
    • 强调GMM的灵活性,能够适应多模态数据分布。
  7. 混合高斯的期望最大化(EM)算法:

    • 简要介绍EM算法的两个步骤:E步骤(Expectation)和M步骤(Maximization)。
    • 解释E步骤的目标是估计每个数据点属于每个高斯分量的概率,而M步骤是通过最大化似然函数来更新高斯分布的参数。
  8. GMM在聚类中的应用:

    • 强调GMM在聚类问题中的应用,每个簇对应一个高斯分量。
    • 提到GMM可以用于软聚类,即一个数据点可以同时属于多个簇的概率。