主要是朴素贝叶斯相关,EM算法没看懂。。。
贝叶斯判定准则
为最小化总体风险,只需在每个样本上选择能使风险最小的类别标记
贝叶斯定理的名词解释
条件概率P(X|C)表示样本x在分类c下出现的概率,但很多样本在训练集根本没有出现,所以不能直接用频率来估计概率。
朴素贝叶斯分类器
条件概率P(X|C)难以从有限的训练样本中估计,因为在某个分类下出现x是所有属性的联合概率,为了避开这个朴素贝叶斯分类器采用”属性条件独立性假设” ,就是假设这些属性是相互独立的。
PS: 朴素贝叶斯就朴素在假设这些属性相互独立
拉普拉斯修正
如果出现了某个属性在训练集中没有出现的情况该如何处理呢,因为上面式子连乘时遇到某个条件概率为0时就会直接导致后验概率为0。
表示训练集D中可能的类别 N; Ni表示第i个属性可能的取值数