3 most important points

  1. 贝叶斯定理
  2. 一元高斯分布 最大似然估计求解
  3. 所有分布都可以表示为多个高斯分布叠加,因此混合高斯模型可以用来建模任意特征;使用EM算法可以求解GMM,其中E为“Expectection”,对不同单高斯分布的权重进行预测,M为“Maximization”,更新每一个单高斯分布

5 thoughts

  1. 贝叶斯因子是区别于“似然比”的一种估计方法
  2. 如何对矩阵进行求导?
  3. 需要自己动手进行一次EM算法的实现,或者了解在python中如何实现EM算法
  4. 需要了解一些贝叶斯定理的实际应用

Notes

贝叶斯定理

  • 贝叶斯定理
    • 核心:新证据不能直接凭空的决定你的看法,而是应该更新你的先验看法(经验) 例如,描述一个文静的人,你觉得 ta 更可能是图书管理员还是农民?
    • 场景:给定假设和证据,你想知道在证据为真的条件下假设成立的概率
    • @ 公式:
      • :后验概率,posterior Hypothesis given the evidence
      • :先验概率,prior 就是在不考虑证据的情况下,假设成立的概率
      • :似然概率,likelihood 假设成立时,其中符合证据描述的比例
      • :假设成立的概率
    • 证明:
    • 可视化:
    • 补充:
      • 这是另一种视角,说明贝叶斯定理成立的原因;上述等式可通过移项得到贝叶斯定理
      • 另一方面, 这样的式子指出了一个常见的误区:大部分情况下,事件 不是相互独立的;只有当二者独立的时候, 成立,这是因为
    • 贝叶斯因子
      • 定义:
      • 比较:
        • 比率和概率是两种不同的表达,比如:1:1 = 50% 或者 4:1 = 20%
        • 通过贝叶斯因子,能够更快地估计概率
        • 这只是一种估计方法,当先验概率比较小的时候可以使用
  • 二项分布
    • 引入:购物时,查看好评率的时候会考虑样本数量;当样本量大的时候,人们更倾向于相信,而样本量小的时候会有所顾虑 运用拉普拉斯平滑方法,在已有数据上加上一个好评和一个差评,即人们心中的结果
    • 可视化:概率的概率
      • 情景:购物时,在所有人在该商家购物体验好的概率)的基础上知道自己能体验好的概率),其中 不固定
      • 问题:在现实生活中,不能从已有的数据得到一个“恒定频率”(如骰子、硬币展现的),只有一个“估计”——测试不能保证真正的概率
      • 建模: 注意这里前后两个 s 不是一回事儿,后一个 s 可能实际上指的是情景中的 p
    • 定义:单次随机事件只有两种可能的结果,重复某个次数之后,得到某种组合的概率
    • ~ 计算:;其中 为组合数,比如说 *
    • 问题:当所求组合为全对,当 接近 1 的时候最可能实现,但是显然 不可能是 1
  • 概率密度函数 Porbability Density Function (PDF)
    • 场景:处理连续变化的概率,需要积分;就像处理离散的概率需要相加
    • 定义:
    • 性质:曲线下面积和为1
    • 意义:一个随机变量出现在两个值区间的概率

高斯分布

一元高斯分布

  • 高斯分布
    • 定义:高斯分布,也叫正态分布,是最常见的连续概率分布之一。它的概率密度函数呈对称的钟形曲线,完全由两个参数决定:
      • 均值 μ:决定分布的中心位置。
      • 标准差 σ:决定曲线的“胖瘦”,σ 越大,数据越分散。
    • @ 概率密度函数:
    • 特性:
      • 对称性:均值处概率最高,左右对称。
      • 68-95-99.7 规则:约 68% 的数据落在 μ±σ 内,95% 在 μ±2σ,99.7% 在 μ±3σ。
      • 中心极限定理:大量独立随机变量的均值趋近高斯分布,这也是它在统计学和机器学习中广泛应用的原因。
    • 举例:检测图片中的黄色小球 横轴代表每个像素,但是记录每个像素非常消耗存储空间,考虑用高斯分布来拟合
  • 最大似然估计(Maximum Likelihood Estimation,MLE)
    • 用途:求解高斯分布
    • 似然 Likelihood
      • 定义:在给定模型参数的情况下观测值出现的概率,即条件概率
      • 举例:比如,在上一节的小球例子中, 表示所有“黄色”像素点的色相值,如果给定了高斯分布的 ,我们就能算出 出现的概率。
    • ~ 结论:
    • 证明:
      1. 问题定义:给定观测值 ,求 使得似然函数最大 其中 表示估计值
      2. 是观测值的集合,假设这些观测值相互独立(在例子中是这样的),则 代入问题,得到目标:
      3. 根据对数函数的单调性,对右式求最大值等价于对右式取对数再求最大值,可将连乘展开为相加:\begin{align} \hat{\mu},\hat{\sigma} &=\text{arg}\ \underset{\mu,\sigma}{\max}\ln{ \{\prod_{i=1}^Np(x_i|\mu,\sigma)} \}\\ &=\text{arg}\ \underset{\mu,\sigma}{\max}\sum_{i=1}^{N}\ln p(x_i|\mu,\sigma) \end{align}
      4. 显然 是即为高斯分布上的一个点,可以代入概率密度函数求解:\begin{align} \ln p(x_i|\mu,\sigma) &= \ln ( \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} ) \\ &= -\frac{(x_i-\mu)^2}{2\sigma^2}-\ln\sigma-\ln\sqrt{2\pi} \end{align}
      5. 而常数项对求最值没有影响,所以最终目标可以化成:\begin{align} \hat{\mu},\hat{\sigma} &= \text{arg}\ \underset{\mu,\sigma}{\max}\sum_{i=1}^{N} (-\frac{(x_i-\mu)^2}{2\sigma^2}-\ln\sigma-\ln\sqrt{2\pi}) \\ &= \text{arg}\ \underset{\mu,\sigma}{\max}\sum_{i=1}^{N} (-\frac{(x_i-\mu)^2}{2\sigma^2}-\ln\sigma) \\ &= \text{arg}\ \underset{\mu,\sigma}{\min}\sum_{i=1}^{N} (\frac{(x_i-\mu)^2}{2\sigma^2}+\ln\sigma) \end{align}
      6. 求最值当然是要求导啦,所以对目标函数 求偏导:\begin{align} \frac{\partial J}{\partial \mu} &= \sum_{i=1}^N\frac{-2(x_i-\mu)}{2\sigma^2}\\ &=\frac{1}{\sigma^2}(N\mu-\sum_{i=1}^Nx_i)\\ &=0 \end{align} 求得:
      7. 带回目标函数得到 ,再次求导:\begin{align} \frac{d J'(\sigma)}{d \sigma} &=\frac{N}{\sigma} - \sum_{i=1}^N\frac{(x_i-\mu)^2}{\sigma^3} \\ &= \frac{1}{\sigma}(N-\frac{1}{\sigma^2}\sum_{i=1}^N(x_i-\hat\mu)^2)\\ &=0 \end{align} 求得:

多元高斯分布

  • 多元高斯分布
    • @ 概率密度函数: 其中 表示维度(元的数目), 是一个向量 表示协方差矩阵, 表示 的行列式值
    • 协方差矩阵 Covariance Matrix
      • 定义:协方差矩阵是一个方阵,由两部分组成,方差(Variance)和相关性(Correlation),对角线上的值表示方差,非对角线上的值表示维度之间的相关性。
      • 举例:
    • 举例:检测图片中的黄色小球(RGB版)
  • 最大似然估计(多元高斯分布版)
    • ~ 结论:
    • 证明:
      1. 和求解一元高斯分布类似,将问题描述为:给定观测值 ,求 ,使得似然函数最大:
      2. 经过取对数、代入、化为和等一系列操作,得到目标函数:
      3. 接着求偏导:\begin{align} \frac{\partial J}{\partial \boldsymbol\mu} &= \frac{\partial}{\partial\boldsymbol\mu}\sum_{i=1}^N(\frac{1}{2}(\boldsymbol{x_i}-\boldsymbol\mu)^T\Sigma^{-1}(\boldsymbol{x_i}-\boldsymbol\mu)+\frac{1}{2}|\Sigma|) \\&= \frac{\partial}{\partial\boldsymbol\mu}\frac{1}{2}\sum_{i=1}^N(\boldsymbol{x_i}^T\Sigma^{-1}\boldsymbol{x_i}-\boldsymbol{x_i}^T\Sigma^{-1}\boldsymbol\mu-\boldsymbol\mu^T\Sigma^{-1}\boldsymbol{x_i}+\boldsymbol\mu^T\Sigma^{-1}\boldsymbol\mu) \\&= \frac{\partial}{\partial\mu}\sum_{i=1}^N(\frac{1}{2}\boldsymbol\mu^T\Sigma^{-1}\boldsymbol\mu-\boldsymbol\mu\Sigma^{-1}\boldsymbol{x_i}) \\&= \Sigma^{-1}\sum_{i=1}^N(\boldsymbol\mu-\boldsymbol{x_i}) \\&= \boldsymbol{0} \end{align} \begin{align} \frac{\partial J}{\partial\Sigma} &=\frac{\partial}{\partial\Sigma}\sum_{i=1}^N(\frac{1}{2}(\boldsymbol{x_i}-\hat{\boldsymbol\mu})^T\Sigma^{-1}(\boldsymbol{x_i}-\hat{\boldsymbol\mu})+\frac{1}{2}\ln|\Sigma|) \\&= \frac{1}{2}\sum_{i=1}^N(-\Sigma^{-1}(\boldsymbol{x_i}-\hat{\boldsymbol\mu})(\boldsymbol{x_i}-\hat{\boldsymbol\mu})^T\Sigma^{-1}+\Sigma^{-1}) \\&= \frac{1}{2}\Sigma^{-1}(-(\sum_{i=1}^N(\boldsymbol{x_i}-\hat{\boldsymbol\mu})(\boldsymbol{x_i}-\hat{\boldsymbol\mu})^T)\Sigma^{-1}+N\boldsymbol{I}) \\&= \boldsymbol{0} \end{align}
      4. 求得:

混合高斯模型

  • 混合高斯模型(Gaussian Mixture Model,GMM)
    • 实际:多个单高斯模型的和,任何分布都可以用 GMM 来表示
    • 概率密度函数:
      • 其中 是均值为 ,协方差矩阵为 的单高斯模型,
      • 的权重系数,
      • 是单高斯模型的个数
    • 优点:能够表示任何分布
    • 缺点:
      • 参数过多,求解复杂
      • 对观测值建模效果过好容易过拟合
  • 最大期望算法(Expectation Maximization algorith,EM)
    • 思想:由于GMM过于复杂,没有解析解,所以通过迭代的方法逼近最优解
    • 步骤:
      1. 猜测一个初始解(不同初值会得到不同的解)
      2. E-step:引入中间变量可以理解为每个单高斯分布对每个位置 i 的权重
      3. M-step 可以理解为第 个单高斯分布对整个GMM的贡献,在更新 之后,反过来用它更新每一个单高斯分布:\begin{align} & \boldsymbol\mu_k = \frac{1}{z_k}\sum_{i=1}^Nz_k^i\boldsymbol{x_i} \\ & \Sigma_k = \frac{1}{z_k}\sum_{i=1}^Nz_k^i(\boldsymbol{x_i}-\boldsymbol\mu_k)(\boldsymbol{x_i}-\boldsymbol\mu_k)^T \end{align}
      4. 循环更新,当相邻两个步骤值的差小于 threshold 时,得到结果

微积分

Reference

概率论 高斯分布