奇书网

奇书网>简单统计学 一本正经的胡说八道 > 第19讲 在贝塔分布中使用概率分布图进行高级推理(第2页)

第19讲 在贝塔分布中使用概率分布图进行高级推理(第2页)

由于关于类别的先验分布为均匀分布,那么,可以通过两胎连续生女孩的情况设定,来计算结果。而根据第12讲中解说的“贝叶斯推理的序贯理性”这一性质(见12-4),把上一节中求出的后验分布(z=2x)再次设定为先验分布,并在此基础上,根据“这对夫妇再次生了女孩”的信息,可以得出后验分布是相等的结论。那么,下面我们就用这个方法进行贝叶斯推理吧。

图表19-5先验分布和后验分布

首先看图表19-5的左侧部分:x轴上方的部分表示先验分布,如设定一样,贝塔分布为y=2x。下方则表示,在获得“该夫妇生了女孩”的信息之后,各种可能性的划分。先说明结论:下图中涂有颜色部分的界限曲线为抛物线

z=2x2…(1)

该抛物线上方涂有颜色的部分,表示该夫妇在类别x的情况下生女孩的概率密度。此外,该夫妇在类别x的情况下,生男孩的概率密度为直线OF和抛物线(1)围成的部分。

第15讲中已经进行了解说:该夫妇在类别x的情况下,生女孩的概率密度为(1)式,是依据“&的事件的概率法则”。由于该夫妇在类别x的情况下,生女孩的概率密度为x,那么在条件概率p(信息|类别)中,若类别=“x”、信息=“女孩”,那么这个概率模型可以设定为:

p=(女孩|x)=x

因此,

p((该夫妇为类别x)&(类别x的夫妇生了女孩))

=p(类别x)×p(女孩|x)

=2x×x

=2x2

下面,通过图表19-5的右侧部分,来对于“为何概率密度和概率,都能够用乘法运算求出&的概率密度呢?”的问题进行说明(如果觉得这样的解说很烦琐,可以直接跳过以下内容)。以类别x=0。7为例:该夫妇的类别0。7这一可能性,近似于x轴上方的小长方形。若把宽度设为d,那么关于以0。7为中心的宽度d的范围的类别x,可以将其概率密度全部视为1。4。那么,该夫妇属于这个长方形(属于这种可能性)的概率为:d×1。4。这里,运用了将概率密度乘以宽度转换为概率的方法。由于属于该情况的夫妇,生女孩的概率为0。7,那么(该夫妇属于类别0。7)&(类别0。7的夫妇生女孩)这种可能性,便可以认为近似于x轴下方以线段AD为长的长方形。

在这个长方形中,点D处于划分0。7和0。3的比率的位置,因此,这个面积为(d×1。4)×0。7。由此可以计算出AD的长度(除去宽度d)1。4×0。7=0。98。

之后,根据获得的“第二胎依然为女孩”的信息,可以排除掉图表19-5左侧部分的OF和抛物线(1)围成的部分,只留下抛物线(1)和x轴围成的部分(涂有颜色的部分)。由于这个面积不等于1,因此需要像之前一样,使用标准化条件,使其面积变为1。

这里需要注意的是,二次函数y=(常数)x2为α=3、β=1时的贝塔分布。因此,满足标准化条件的后验分布为:(对于推理来说,“系数为3”并不重要,故此处省略原因)。

y=3x2(0≤x≤1)

那么,根据上一讲中的公式,可以求出α=3、β=1的贝塔分布的期待值为:

图表19-6第二胎依然为女孩时的后验分布

19-4设定先验分布非均匀分布,并进行推理

如19-2中解说的那样,多数人认为,把“某对夫妇生女儿的概率”的先验分布设定为均匀分布,并不十分恰当。这是由于,一般来说很难认为当类别接近0或1时,与接近0。5时的情况是相同的;而最初的设定——接近0。5的类别容易发生,远离0。5的类别难以发生这样的思路则更为普遍。最后,以这种情况为例来进行解说。

此时,可以将先验分布设定为α=2、β=2的贝塔分布。正如第17讲中的解说,该分布为:(图表19-7)

y=6x(1-x)(0≤x≤1)

图表19-7非均匀贝塔分布的先验分布

在上述先验分布的情况下,离类别0。5越远,其概率密度越小。此时,“类别x的夫妇生女孩”的概率为:

p((类别x)&(女孩))

=p(类别x)×p(女孩|x)

=6x(1-x)×x

=6x2(1-x)

因此,实行标准化条件之后,从作为后验分布的贝塔分布中可以求出:(此处省略说明系数为12的理由)

热门小说推荐

最新标签