文章目录
  1. 1. 机器学习13—EM算法—应用到三个模型: 1,2,3因子分析模型
    1. 1.1. 边缘和条件概率分布
      1. 1.1.1. 因子分析模型
      2. 1.1.2. 因子分析的EM估计
        1. 1.1.2.1. 总体步骤:
        2. 1.1.2.2. 详细步骤
      3. 1.1.3. 因子分析总结

机器学习13—EM算法—应用到三个模型: 1,2,3因子分析模型

使用场所:

  • 标签z是连续的
  • 样本个数大于特征数
  • 高维—>低维
  • 潜在的假想变量和随机影响变量的线性组合表示原始变量

边缘和条件概率分布

后面的推导用到了边缘和条件分布:

  1. 已知

  2. 边缘分布
  3. 条件概率分布

因子分析模型

z被称为因子。我们要做的就是从高维随机连续变量x,变换到低维随机连续变量z。

  1. 首先,我们如下假设:

    eg:从1维到2维:
    1维:

    2维

  2. 我们令:
  3. 下面经过推导,求得的具体值:
  4. 因此,我们得到x的边缘分布:
  5. 从而我们对样本 进行最大似然估计:

    但是,当似然函数最大时,我们得不到解析解(比如,一元二次方程的通解形式)。根据之前对参数估计的理解,在有隐含变量 z 时,我们可以考虑使用 EM 来进行估计。

因子分析的EM估计

总体步骤:

注:这里的要改写为积分符号$\int_{z^{(i)}}^{}$。因为,z是连续随机变量。

详细步骤

E步


  1. 根据前面的结论有:

  2. 根据多元高斯公式得:

M步

  1. 我们目标是最大化:

  2. 通过参数估计,我们最终可以得到:



    然后将Φ上的对角线上元素抽取出来放到对应的Ψ中,就得到了Ψ。

因子分析总结

  1. 根据上面的 EM 的过程,要对样本 X 进行因子分析,只需知道要分解的因子数(z 的维度)即可。通过 EM,我们能够得到转换矩阵Λ和误差协方差Ψ。
  2. 因子分析(factor analysis)是一种数据简化的技术。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
  3. 因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义
  4. 主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。

    主成分分析:原始变量的线性组合表示新的综合变量,即主成分;
    因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。

文章目录
  1. 1. 机器学习13—EM算法—应用到三个模型: 1,2,3因子分析模型
    1. 1.1. 边缘和条件概率分布
      1. 1.1.1. 因子分析模型
      2. 1.1.2. 因子分析的EM估计
        1. 1.1.2.1. 总体步骤:
        2. 1.1.2.2. 详细步骤
      3. 1.1.3. 因子分析总结