第15讲在获得信息之后,概率的表示方法“条件概率”的基本性质
15-1运用“条件概率”来表示“贝叶斯逆概率”
通过前面的讲义大家已经了解到:贝叶斯推理来说,最重要的观点是“获得信息之后,概率发生变化”。用第2讲中的案例来具体解释,即:在癌症指标检查中,依据获得“患癌症”或是“健康”的不同信息,检查结果呈阳性的概率会发生变化。用第3讲中的案例来具体解释,则为:根据女同事认为你是“真命天子”还是“无关路人”的不同信息,收到巧克力的概率也将有所差异。
类似这样,根据有无信息、信息的种类等条件不同,概率也会随之发生变化的情况,可以用“条件概率”一词来表述。在高中阶段的数学课上,我们曾经接触过条件概率的相关知识。而在描述贝叶斯推理时,条件概率可谓是最重要的内容。因此,本讲将从基础开始详细解说,并在此基础上,通过运用条件概率,推导出贝叶斯逆概率的公式。
15-2“条件概率”把部分看作整体,从而变更数值
在这里,用掷骰子的案例来进行说明。
把一个骰子放入带有盖子的箱中,并摇晃箱子,使骰子在箱中滚动。接下来,推测骰子的点数。现在,需要求出骰子的点数为偶数的概率。然后把“骰子的点数为偶数”这个事件记为E,则:
E={2,4,6}
在掷骰子的概率模型中,事件E的概率为:
然而此时,有人偷偷地打开了盖子,并往箱子里看了一眼,然后告诉你“骰子的点数不是6”。那么接下来概率会发生怎样的变化呢?由于点数为6的可能性被排除在外,那么对于概率的推算结果也会发生改变。像这样,当获得“不是现6”这条信息时,“骰子的点数为偶数”的概率被称为“条件概率”。
把“不是6”这一事件记为F,则:
F={1,2,3,4,5}
此时,在获得“发生了事件F”这条信息的情况下,事件E的概率记为:
P(E|F)
记号p(|)的含义是:间隔符号的右侧表示获得的信息。
在计算数值的时候,比较自然的想法是使用面积图表,如图表15-1所示。
图表15-1条件概率的思维方式
如图表15-1所示,没有获得任何信息的时候,由于事件E占了整体的一半面积,因而它的概率p(E)为12。但当获得了事件F即“不是6”这一信息之后,事件F就开始变得引人注目。因此,有两个问题需要进行变更。
第1个变更:由于事件F变为了一个整体,所以应该把事件F的概率设定为1。换言之,把F的面积视为1。
第2个变更:由于事件F的发生,可能性受到了限制,因而需要在考虑事件E与事件F的共同部分的基础上,来推算概率问题。换言之,需要关注的事件为E和F的重叠部分={2,4}。
根据上述两个变更,需要计算的概率p(E|F),即:获得“发生事件F”这一信息之后,E的条件概率,也就是:把F看做一个整体来考虑时,“E和F的重叠部分”占F的比例。因此,可以用除法计算求出,表示为:
(E和F重叠部分的面积)÷(F的面积)
因此,可进行如下定义:
p(E|F)=p(E和F的重叠部分)÷p(F)
进行实际计算,可得出:
总而言之,条件概率是指:把得到的消息再次设定为整体,并排除掉没有可能性的各个事件之后,重新计算出的比率。
以上说明可以写成通用的公式,如下所示:
条件概率的公式
当获得事件B这一信息之后,事件A的条件概率p(A|B),可定义为:
p(A|B)=p(A和B的重叠部分)÷p(B)
15-3各个类别被赋予的概率=条件概率
若要在贝叶斯推理中使用条件概率,使用方法分为两个阶段。第一阶段:按照各自的类别设定数据概率的方法;第二阶段:计算后验概率时的方法。而重要的一点是,在这两个阶段中,都可以有效利用直积试验的特性。本节将会具体解说前一种情况。
在这里,将再一次使用第7讲和第13讲中关于壶和壶里有颜色的球的例子。下面对其设定再次进行说明。
问题设定
面前有一只壶,已知这个壶不是A壶就是B壶,但是单从外表看不出究竟是哪个。而目前已知的是:A壶中有9个白球和1个黑球,B壶中有2个白球和8个黑球。现在,如果从壶里取出1个球,并且这个球是黑色的,那么,面前的这个壶究竟是A还是B呢?
在这个案例中,所有的可能性共有4种。用专有名词可以表述为:基本事件的集合={A&黑球,A&白球,B&黑球,B&白球},也就是直积试验的各个事件,如图表15-2所示。
第7讲和第13讲中虽然提出了“从A壶中取出的球是黑球的概率为0。1”的观点,但并没有对其含义进行严密的说明。实际上,“从A壶中取出的球是黑球的概率为0。1”,正是指上一节中所定义的条件概率,也就是在获得“该壶为A壶”这个信息之后,得出的“取出的球为黑球”的概率。
图表15-2条件概率的设定
用公式来表达,即: