1201.机器学习-算法-朴素贝叶斯

18世纪英国业余(一点都不业余好吗)数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:
用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。
这个研究成果由于简单显得平淡无奇,直至他死后两年才于1763年由他的朋友理查德·普莱斯帮助发表。它的数学原理很容易理解,简单说就是,如果你看到一个人总是做一些好事,则会推断那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。
用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大

贝叶斯定理

拉普拉斯不断地搜集新增的出生记录,并用之推断原有的概率是否准确。每一个新的记录都减少了不确定性的范围。拉普拉斯给出了我们现在所用的贝叶斯公式的表达:
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。严格地讲,贝叶斯公式至少应被称为“贝叶斯-拉普拉斯公式”。深刻理解上述公式,理解了贝叶斯定理,明白条件概率,也就理解了朴素贝叶斯的算法基础。

几个扩展的公式:

  • 条件概率:
    $P(A|B)$
    就是事件 $A$ 在另外一个事件 $B$ 已经发生条件下的发生概率。条件概率表示为$ P ( A ∣ B )$ ,读作“在 $B$ 发生的条件下 $A$ 发生的概率”。

  • 联合概率:
    表示两个事件共同发生(数学概念上的交集)的概率。
    $A$ 与 $B$ 的联合概率表示为联合概率。 $p(AB) = P(A∣B)P(B)=P(B∣A)P(A)$ ,
    若 $A、B$ 相互独立,$P(AB) = P(A)P(B)$,

  • 全概率公式:
    $P(X)=\sum_k{ P(X∣Y=Y_k)P(Y_k)}$ ,其中$\sum_k{P(Y_k​)}=1$

朴素贝叶斯算法

朴素贝叶斯算法(Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。
朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。
当然这是一种取舍,实际应用中,我们面对的问题,会有诸多的属性,这些属性之间也很难完全独立,但是通过把这些属性视作独立的特征可以极大的降低复杂性,同时结果上也基本可以满足我们的应用需求。

示例

贝叶斯示例1

分别有 A、B 两个容器,

  • A容器:有 7 个红球和 3 个白球;
  • B容器:有 1 个红球和 9 个白球。

现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?

1
2
3
4
5
6
7
8
9
# X事件为选中了红球
p(X) = 8/20
# Y事件代表选中A容器
p(Y) = 1/2
# A容器中红球的概率
p(X|Y) = 7/10
# 选中一个红球,该球来自A容器的概率为
p(Y|X) = {p(X|Y)*p(Y)} / p(X)
p(Y|X) = 7/10 * 1/2 * 20/8 = 7/8

当然我们也可以换个角度,我们所有的已知信息中,一共有8个红球,其中7个在容器A中,1个在容器B中,所以我们抽中红球是来自容器A 的概率是 $7/8$

示例2

当然示例1的问题比较简单,我们只有一个特征信息(球的颜色),但是我们要解决的实际问题往往复杂的多,比如预测一场比赛的胜负,那么我们就需要用到多个特征信息,比如:
球员的技术水平,球员的身体状态,是否伤病等多个因素相关,但是显而易见的其中伤病和身体状体其实会存在一定的关联性,这个时候,如果我们需要在计算概率时,由于特征之间的各种相关性会非常复杂,所以有时候为了,简化计算过程,我们会在应用过程中,对所有特征进行简化,认为所有特征之间都是互相独立的,虽然会损失一些准确性,但是可以极大的降低计算的复杂性。

原理的扩展

我们了解了贝叶斯公式:$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$。对整个公式进行拓展,在我们进行应用过程中,我们所知道的每一个已知信息,都是先验信息,我们计算的其实就是在确定的先验信息下,数据/样本归类到某个类别的概率 P(C|F1,….,F2)。

-------------本文结束感谢您的阅读-------------