<aside> ⚠️ 依旧是统计学的章节,先跳过一下吧
</aside>
<aside> ⚠️ EM算法,补之
</aside>
本章介绍EM算法。EM算法主要应用于训练集样本不完整即存在隐变量时的情形例如:训练集是100个男生身高和100个女生身高,但是学习器不知道这个样本是男生还是女生,最终希望训练出性别对应身高的分布参数,可能用来给新的身高分类。在这个例子中,数据不完整之处就是身高数据具有隐形的性别属性,我们称为隐变量。EM即是适合不完整数据挖掘的一种算法!
EM是一种迭代式的方法,它的基本思想就是:
<aside> ⚠️ 隐变量是当前缺失的数据注。意隐变量可以离散可以连续,如前两例,类标和类别概率都可以做隐变量。
</aside>
<aside> ⚠️ 分布指分布的种类,比如圆形,比如正态分布,加上以及其对应的参数比如K-Means的圆心,身高正态分布的均值和方差。后者恰恰是算法需要通过学习不断逼近的值。但是这些参数是会不断随迭代改进的
</aside>
<aside> ⚠️ M步求出的正是分布参数的值,比如K-Means的圆心,身高正态分布的均值和方差,用来更新分布。这个新的分布参数被用来进行下一次E步的推断
</aside>
<aside> ⚠️ 极大似然估计
极大似然估计是一个求分布参数的统计方法。简单来说,就是已知样本分布类型,我们根据当前样本的结果,估计考它所在分布的参数最有可能是什么。比如我们要估计硬币向上的概率,如果样本集是10个里面7个向上,那假设硬币遵循二项分布,则使用极大似然估计可以估计出的向上概率为0.7 。
这个显然的结论是通过极大似然估计得出的,其原理是,当二项分布参数(这里就是所求的向上概率)为0.7时,最有可能发生当前抛硬币出现7/10的情况,数学上来说,就是0.7时,该样本集结果的似然函数↓取最大值
</aside>