高中阶段似已掌握概率的最基本运算,大学阶段的学习应如何在其基础上更深一步某种程度上讲,大学阶段的学习是一种"知其然且知之其所以然"的过程,既要通过一定的数学练习培养起严格审慎的概率思维方式,又要深入理解各种数学定义和公式背后的基本思想与实用意图,并了解数学工具的前提假定与应用局限,从而避免概率思维的误解与滥用.
本章将先回顾中学阶段的一些基础知识和数学符号,并通过对概率概念及其计算方式的进一步阐释,引出条件概率、事件的独立性等基础的概率论概念.
1.
1基础知识回顾这一部分将回顾高中阶段的集合论术语与概率计算技巧.
1.
1.
1基本术语与符号表达概率论可以说是一门研究随机现象之数学模型的学科.
所谓随机现象(randomphenome-non),就是在一定条件下并不总是出现相同结果的现象.
对随机现象进行观察、记录、实验的过程,称为随机试验(randomexperiment),而其中的每一次观测则称为trial(由于中文缺少单复数形式,故翻译仍为试验,但一个experiment可包含若干次trials).
从"几何"意义上讲,某一随机现象的所有可能结果的集合,称为样本空间(samplespace),用大写希腊字母表示;而每一个不可再分解的试验结果,称为样本点(samplepoint),用小写希腊字母ω表示,通常会加上数字下标,如ω1,ω2,ωn表示不同的样本点.
如此,随机事件(randomevent,简称事件)可以定义为某些样本点的集合,或样本空间的某个子集(subset).
每一个样本点对应一个基本事件.
样本空间的最大子集,即本身,称为必然事件(sureevent);样本空间的最小子集,即空集(emptyset),称为不可能事件(impossibleevent).
实际使用中,随机事件可能有不同的表达方式:直接用语言描述,同一事件可能有不同的描述;也可以用样本空间子集的形式表示,此时需要理解它所表达的实际含义.
同时应当注意,这里的"试验"与科学中的试验或实验并不是一回事,这里所称的事件与日常语言中的事件也不是一回事.
概率论中的"事件"与"试验",应当连在一起作为一对相互联系的概念进行理解.
日常用语中的"事件",通常是指已经发生的情况,如"非典"事件、"9·11"事件,等等.
而概率论中的事件,仅仅是关于某种状况的一种陈述,它可能已经发生过,也可能没有发生过;可能发生,也可能不发生;"发生"与否,需等待"试验"的结果才能确定.
概率2R语言统计学基础论中称"两个事件A与B共同发生或同时发生",并不是真的要求你能够"眼见为实"地看到它出现,而只是在说:"A与B存在同时出现的逻辑上的可能",至于它实际上有没有发生过,并不是关注的重点.
事件的产生总依赖于试验,这也不一定意味着个体要去亲身地观察和实验,而可以只是一种逻辑上的思考与想象,可以仅是一种理论上的"观察"与"推测".
也就是说,试验虽然可能涉及真实的、科学意义上的观测过程,但更多的只是一种理性上的思考过程而已.
直观上讲,用来表示随机事件结果的变量称为随机变量(randomvariable),常用大写字母,如X、Y、Z表示.
这其实是将具体的现象抽象化和符号化的过程.
后面会用更加数学化的语言来重新定义随机变量,但不妨先做这一简单理解.
事件之间的关系和运算有很多种,这里仅列出最常见的几种及其符号表示(表1.
1),以便参阅.
表1.
1概率论中的事件符号及其含义符号表示集合论意义概率论意义ABA包含在B中若A发生,则B一定发生;事件A蕴涵事件BA=BA与B相等A与B同时发生或同时不发生A∩B交集(intersection)A与B同时发生A∪B并集(union)A与B至少有一个发生A∩B=A与B不相交(disjoint)A与B互不相容(互斥,mutuallyexclusive)Ac或AA的补集(complement),A+Ac=A与Ac为对立事件AB差集(dierence)A发生而B不发生若样本空间可划分为一系列两两互不相容的事件A1,A2,An,且A1∪A2An=,即ni=1Ai=,则称A1,A2,An为的一个分割(partition),或称A1,A2,An是一个完备(exhaustive)事件组.
若干个事件的交集A1∩A2An则可记为ni=1Ai.
后面还会遇到其他类型的事件关系,如A与B相互独立,这在概率论及其实际应用中占有很重要的地位,稍后再行展开.
在公式表达经常会遇到求和号和连乘号,其基本形式如下:ni=1xi=x1+x2xnni=1xi=x1x2···xn在不至于引起歧义时,为了追求方便,上下标有时也略去不写.
1.
1.
2基本计数原理与技巧概率的计算通常离不开排列组合等相关的计数技巧(countingtechnique)与计数原理.
基本计数原理有两个:加法原理(additionprinciple)和乘法原理(multiplicationprinci-ple).
加法原理的要义是:做一件事情,完成它有n类办法,在第1类办法中有m1种不同的方法,在第2类办法中有m2种不同的方法,在第n类办法中有mn种不同的方法,那第1章概率基础3么完成这件事情共有m1+m2mn种不同的方法.
乘法原理的基本要义是:如果完成一个事件可以分解为n个独立的步骤,每个步骤均有m种实现方式,那么,完成这一事件总共可以有m*n种方法.
通常用一句话概括这两个原理的用法:分类问题用加法,分步问题用乘法.
排列组合是高中数学训练的一个重点.
这里不再重复,仅列出常用概念的记号、定义与公式,以便回顾.
定义1.
1(阶乘)阶乘(factorial),即阶乘式的乘法,定义如下:n!
=n*(n1)*(n2)3*2*1(1.
1)特别地,规定0!
=1.
有时还可能遇到双阶乘(doublefactorial),其定义为n!
!
=n*(n2)4*2,n为偶数;n*(n2)3*1,n为奇数(1.
2)仍规定0!
!
=1在R中,计算阶乘的命令为factorial().
例如,求10!
的命令为factorial(10)答案为3628800.
定义1.
2(排列)排列(permutation)是指从n个不同元素中无放回(withoutreplace-ment)地抽取r(rn)个元素所排成的一列(考虑元素的先后次序).
此排列的总数记为nPr,又记为Prn或Arn(A是排列的另一英文Arrangement的首字母).
排列的计算方式如下:nPr=n!
(nr)!
(1.
3)特别地,有nPn=n!
.
本书采用nPr这一记号,这与国外多数教材比较匹配,与一般科学计算器上的记号也是相符的.
但国内似以Prn或Arn为主导.
通常行文中,"排列"既可能指元素的一种排序方式,又可能指所能可能排列的总数,读者需要根据上下文来理解.
定义1.
3(组合)组合(combination)是指从n个不同元素中无放回地抽取r(rn)个元素并成一组(不考虑元素的先后次序),记为nCr或Crn或nr.
或者说,组合数其实考虑的是n个不同元素中无放回地抽取r(rn)个元素,可以构成的不同子集的个数.
组合的计算方式如下:nCr=nPrr!
=n!
(nr)!
r!
(1.
4)特别地,规定nC0=nCn=1.
排列组合的运算技巧非常丰富,也总出现在各种数学竞赛的题目中.
然而对概率论和统计学的学习而言,这些技巧并不处于核心地位.
故这里不再详细展开.
R中计算组合的命令为choose(n,k),给出的是nCk的值.
例如,求10C5的命令为4R语言统计学基础choose(10,5)答案为252.
R并未提供直接计算排列的命令,但注意到排列与组合间的倍数关系,这可转换为组合与阶乘的乘积来求.
例如,求10P5时,可利用关系式10P5=10C5*5!
,输入如下命令:choose(10,5)*factorial(5)答案为30240.
1.
2概率的计算方式与公理化定义概率(probability)是什么这其实是一个很难回答的问题,答案也不统一.
这里不妨先引用一段美国统计学家福尔克斯(LeroyFolks)的话①:科学理论是建立在没有定义(或定义得不好)的名词上的.
定义质量,力和加速度的尝试都是不满意的,然而依据建立在这些名词上的理论,飞机在飞,火车在行驶,卫星在围绕地球运行.
电子有时描述为粒子,有时为波,有时既是粒子也是波,即使这个词没有确切定义,而晶体管技术仍在前进.
概率存在类似的情况.
虽然概率这个词没有明确的定义,但统计方法和概率模型却证明它们自身很有用.
理想中总希望对每个概念都进行精确定义,然而并不总能做到这一点.
作为概率论的核心,"概率"这一概念本身就是模糊不清的.
然而正如上面的引文所言:这并不影响概率论的魅力与应用.
正确地理解这一点,是大学阶段概率统计学习的重要前提.
在形式化地给出概率的公理化定义之前,这里先简要介绍概率的几种计算方式(或称实现方式).
它们在概率的公理化定义出现之前就已经存在,并且更为直观.
1.
2.
1古典概率通常人们最为熟悉的概率就是古典概率(classicalprobability),其问题形如:"从装有10个红球和5个白球的盒子中随机取出一球,请问该球为红色的概率多大"答案显然为10/15=2/3.
这里的"随机取出一球"(或描述为"任取一球"),实际是指"每个小球被取中的可能性相同",同时盒子中的小球个数也是有限的(这样能保证分母为有限的整数).
这些隐含的意思对于概率计算非常关键.
实际上,试验结果的"有限性"与"等可能性"正是古典概率计算的先决条件.
定义1.
4(古典概型)概率论中把满足下列条件的概率模型称为古典概型:(1)试验的所有可能结果是有限的;(2)试验的每一个结果出现的可能性相同;(3)事件A的概率[记为P(A)]定义为P(A)=事件A包含的可能结果个数所有可能结果的个数(1.
5)=事件A中包含的样本点数样本空间中的样本点数(1.
6)①福尔克斯:统计思想[M].
魏宗舒、吕乃刚,译.
上海:上海翻译出版社,1987:55.
第1章概率基础5由古典概型中计算出来的概率就是所谓的古典概率.
之所以称为古典,是因为这种概率被经典数学家们,如BlaisePascal(1623—1662)、Pierre-SimonLaplace(1749—1827)等人研究得最早、最透彻.
其中"事件A包含的可能结果"通常也称为有利结果(favorableoutcomes),这里的"有利"不是对谁有利的意思,而只表示这是此时关注的结果(outcomesofinterest).
由于假定了每个结果发生的可能性相等,古典概型又称为等可能概型,但严格来说等可能概型并不仅仅局限于古典概型,后面我们将明了这一点.
要注意的是,并不是一个事件有n个可能结果,这n个结果的可能性就是相同的.
这方面有一个最简单的例子:假设我们每天都要出门上班(上课),此时只有两种可能:出车祸,不出车祸.
如果这两个结果是等可能的,我们还能放心地出门吗实际上,出车祸的可能远低于不出车祸的可能.
概率模型中的"等可能"只是一种内在的模型假定,它不一定是真实的事实.
只有当事实能够与这一前提假定相一致,才能运用等可能概型来做计算;一旦事实不能满足这种假定,就不能使用"等可能"的古典概型来计算概率.
这一点务必牢记.
这里仅以几例回顾相关计数技巧在古典概型中的应用.
例1.
1(生日问题)宿舍中6个人,求6人生日(只考虑月和日)各不相同的概率(假设1年有365天).
解设6人依次排队"选择"生日.
第1人"选择"生日时,共有365天可选;第2人再选时,为避开第1人的生日,共有3651=364天可选.
依次类推,并各自相乘,即得有利结果数.
这实际上是365选6的排列数.
而所有可能结果数显然为3656.
故所求概率为365P6/3656.
R中计算的命令为choose(365,6)*factorial(6)/365^6答案是0.
9595.
实际上利用R可以很快算出任意人数宿舍中每个人的生日各不相同(或至少有两人生日相同)的概率,这将留作练习供大家思考.
例1.
2n张奖券中有r张有奖,共有k个人购买,每人一张,其中至少有一个人中奖的概率为多少(k0)的平行线,随机往该平面上抛一枚长度为c(c0,则称P(A|B)为B发生条件下A发生的条件概率,其计算公式为P(A|B)=P(A∩B)P(B)(1.
8)式(1.
8)还有一种等价的计算方式:P(A|B)=n(A∩B)n(B)(1.
9)式中:n(A∩B)为事件A∩B中的样本点数;n(B)为事件B中的样本点数.
这是因为n(A∩B)n(B)=n(A∩B)n()n(B)n()=P(A∩B)P(B)式中:n()为样本空间中的样本点数.
14R语言统计学基础在式(1.
9)中,B事件的发生使用原来的样本空间缩小为B;或者说,由于B事件的发生,提供了一定的预测A事件发生的信息,故应充分利用这一信息来缩小预测的范围(提高预测的精度).
举个相近的例子,公安局在查询户口信息时,如仅知道姓名,在网上检索时不免搜到许多重名的人;为了提升查询效率,再输入其出生年月日,就可大大缩小检索范围.
这正是新信息的作用,它极大地缩小了检索的范围(即样本空间).
由式(1.
8)可很快推出概论的乘法公式:P(A∩B)=P(B)P(A|B)(1.
10)由于A,B的地位对称性,当然也可以有P(A∩B)=P(A)P(B|A)(1.
11)可以证明多个事件的概率乘法公式如下(证明留作习题):Pnk=1Ak=P(A1)P(A2|A1)P(A3|A1∩A2)···P(Ak|A1∩A2Ak1)(1.
12)下面以两例说明条件概率的应用.
例1.
88个篮球中有5个新的、3个旧的.
第一次比赛时,同时取出2个,用完后放回去;第二次比赛时又取出2个球,求第一次取到1个新球的条件下,第二次取到2个新球的概率(规定新球用了一次之后变成旧球).
解设事件A="第一次取到1个新球";事件B="第二次取到2个新球".
由于第一次比赛后,球被放回去,因此在A已发生的条件下,再取第2个球时,总球数仍为8.
但是,因第一次比赛所用的一个新球已变成旧球,其新旧比例已变化为:新球4个,旧球4个,故所求的概率为P(B|A)=4C28C2=314此题使用了条件概率的表达形式,并直接使用了计算样本点的方式计算P(B|A).
R中计算的命令为choose(4,2)/choose(8,2)例1.
9将n根短绳的2n个端头两两相连,问恰好结成n个圆圈(每根短绳首尾相连)的概率.
解此题有多种解法.
这里使用条件概率的方式求解.
以表示所有连接结果的全集.
设想给每个端头都编上号,1,2,2n并将其"排成一行"(这里并不表示现实能否将端头排成一行,而只考虑将2n个点排成一行),然后规定第2k个端头与剩余的2k1个端头两两相连k=1,2,n,这样每一种连法就对应一种接法.
此时共有2n!
种接法,这是因为第1对连法中的第1个端头有2n种选择,与之相连的第2个端头有2n1种选择;在此基础上,第2对连法中的第1个端头有2n2种选择,与之相连的第2个端头有2n3种选择;等等.
以此类推,有[2n(2n1)]*[(2n2)(2n3)2*1)=2n!
第1章概率基础15此即样本空间中的样本点数.
下面计算有利事件数.
以A表示"恰好结成n个圆圈"这一事件.
设想已将绳子编了号,1,2,n.
以Ak表示第k(k=1,2,n)条绳子结成一个圈.
显然,事件A是所有Ak的交集,即A=nk=1Ak.
现在考虑P(A1).
此时有利结果只有1个,即只有选择自己这条绳子的另一个端头,才能结成一圈.
而所有可能的选择有2n1个.
故P(A)=12n1.
接着考虑P(A2|A1).
此时已经有1条绳子结成圈,剩下n1条绳子可结成圈,共有2n2个端头.
重复考虑上面的步骤,有利结果仍然只有1个,而所有可能结果有2(n1)1=2n3个,故P(A2|A1)=12n3.
如此重复进行,可以得到如下公式:P(Ak|A1∩A2Ak1)=12n(2k1),k=3,4,n于是P(A)=P(A1)P(A2|A1)P(A3|A1∩A2)···P(Ak|A1∩A2Ak1)=12n1·12n3···13·11=nk=11(2n1)!
!
1.
3.
2事件的独立性"某项考试,甲通过的概率为0.
5,乙通过的概率为0.
2,两人共同通过的概率为多少"对这一问题,许多同学不假思索地即可回答:0.
5*0.
2=0.
1.
但为什么这两个概率(大家还可以再去思考:这里的概率是古典概率、经验概率还是主观概率)可以相乘这实际上是因为有一个前提:两人是否通过考试是互不影响的.
从概率论的术语说,这就是事件的独立性(independence)问题.
定义1.
9(两个事件之间的独立性)同一样本空间中的两个事件A与B相互独立,如果它们满足如下条件:P(A|B)=P(A)或P(B|A)=P(B)(1.
13)反之,则称A与B是相依的(dependent).
理解一下这个定义.
这实际上是说:事件A发生的概率,没有提供任何关于事件B的发生概率的信息;反之亦然.
正是从这个角度上我们称它们之间是独立的.
或者说,事件A发生的概率,不影响事件B发生的概率;反之亦然.
多个事件的独立性也可以做出类似定义,但稍显复杂.
16R语言统计学基础定义1.
10(三个事件之间的独立性)设A,B,C为三个事件,若它们满足以下三个条件,则称A,B,C之间两两独立:P(A∩B)=P(A)P(B)P(A∩C)=P(A)P(C)P(B∩C)=P(B)P(C)(1.
14)若它们还满足条件P(A∩B∩C)=P(A)P(B)P(C)(1.
15)则称A,B,C之间相互独立.
以上定义可推广至三个以上事件的情形.
注意多个事件之间的两两独立和相互独立并不完全等价,本章练习中将举出相应例子.
基于事件独立性的前提,式(1.
10)可以变为如下形式:P(A∩B)=P(A)P(B)(1.
16)这称为特殊乘法法则,只有在A与B相互独立时可以使用.
如果多个事件之间是相互独立的,那么式(1.
16)可以方便地拓展到多个事件之间的情形.
式(1.
13)和(1.
16)常用来作为判定事件之间是否独立的条件.
下面是几个例题.
例1.
10掷一个均匀的六面体骰子两次.
设出以下事件:A={第一次骰子的点数为5}B={两次骰子的点数之和为6}C={两次骰子的点数之和为7}问:(1)A与B之间是否独立(2)A与C之间是否独立解(1)A={(5,1),(5,2),(5,3),(5,4),(5,5),(5,6)},共包含6个样本点.
故P(A)=636=16.
事件B={(1,5),(2,4),(3,3),(4,2),(5,1)},共包含5个样本点.
事件A|B实际上是指点数和为6的前提下,第1个骰子的点数为5.
这只有一个样本点,即{(5,1)}.
故P(A|B)=15.
由此可见,P(A|B)=P(A),故A与B之间是不独立的.
(2)C={(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)},共包含6个样本点.
事件A|C实际上是指点数和为7的前提下,第1个骰子的点数为5.
这只有一个样本点,即{(5,2)}.
故P(A|C)=16.
由此可见,P(A|C)=P(A),故A与C之间是独立的.
此题需做深一步的解释.
有些同学可能觉得难以理解:两次骰子的投掷之间本身应当是独立的,为什么在此基础上设立不同的事件,仍会出现独立或不独立的结果这里务必要明确:概率论中的"独立"是有明确定义的,即式(1.
13)和(1.
16)(此题也可用此方法验证,第1章概率基础17请自行完成).
在已经有了定义的前提下,就不再去探讨事件之间为什么会独立的"本质根源",而只将此定义视为判定独立性的唯一标准.
这正如人们制定了"60分及格(满分100)"的标准后,就以此为标准划定及格或不及格,而不再去问"59分到底与60分差在哪儿,为什么59就是不及格而60分就是及格"这样的问题一样.
例1.
11回顾例1.
3.
袋中有a个白球、b个黑球,无放回地每次从中取出一球.
前面已经证明抽签顺序与抽签结果无关,第k次抽到黑球的概率永远为ba+b.
现考虑如下问题:(1)第1次抽到黑球与第2次抽到黑球之间独立吗(2)抽签总是有先后顺序的,如果第1个人抽到签后,当场拆开并告知其他人其抽签结果,请问后面的抽签者抽到黑球的概率仍然是ba+b吗解(1)不独立.
设A1表示"第1次抽到黑球",A2表示"第2次抽到黑球".
显然,根据前面的证明结果,应有P(A1)=P(A2)=ba+b.
现在来求P(A2|A1).
事件A2|A1是指在第1次已经抽到黑球的前提条件下,第2次仍然抽到黑球.
此时共有a+b1个小球,而有利结果为b1个(因为已经抽走1个黑球).
其概率显然应当是P(A2|A1)=b1a+b1.
由此可见,P(A2|A1)=P(A2).
故第1次抽到黑球与第2次抽到黑球之间不独立.
(2)不是.
假设第1次已经抽到黑球.
如果抽签者拆开并告知其他人抽签结果,那么根据(1)的结果,此时第2个人抽到黑球的概率就是前面定义的P(A2|A1)=b1a+b1=ba+b.
类似地,如果假设第1次抽到白球且拆开告知其他人,则第2个人抽到黑球的概率就应当是P(A2|Ac1)=ba+b1=ba+b.
故如果第1个抽签者知道了签中的信息并告知他人,则后面人选抽中黑球的概率会发生变化.
此题值得进一步玩味.
实际的抽签过程中,如何切实保证抽签的公平性按此例中的解释,如果抽签者抽到签时即拆开,实际上这种"公平性"就无从保证.
但若每个人依次抽签,且抽完后同时打开,就可以保证抽签的公平性.
有些同学可能会有疑问:不论是否拆开签,抽到手的签已经不会变化,是黑的就是黑的,是白的就是白的,为何单单"拆开"这一动作,就足以使所谓的"概率"发生变化这不妨从信息的角度来理解.
如果自己和他人均不知道签中的信息,虽然该信息已经确定地存在签中,但对于所有人而言,它仍是未知的,因此可以看成是随机的;然而一旦拆开,抽中者或他人了解这一信息,此时随机性就已然丧失,变成了确定性的信息.
这样一来,基于理想的"随机性"(等可能性)前提而计算出来的ba+b也就不再成立了.
这里再对独立性这一概念啰唆几句.
从本质意义上的角度说,A与B之间相互独立,是指A与B之间不存在任何关系,A的发生不影响B的发生,反之亦然.
许多教材里提到的"我们通常从问题的实际意义入手分析事件之间是否独立"就是这个意思.
如通常认为你穿的鞋子的品牌不会影响今天的天气;正常的考试中两个人是否通过是互不影响的;等等.
然而世界上究竟存不存在完全独立、完全不会相互影响的两个事件这恐怕是很难证实,也很18R语言统计学基础难证伪的命题.
只是如果事件之间的关联性非常弱,以至于从实际应用的角度而言是不必计较的,就可以假定独立性.
这正如我们无法制造出绝对的真空,但只要创造出接近真空的环境,即可开展相应的物理实验一样.
而从概率论的角度而言,总是假定独立性可以存在,然后再去推导相关的性质,而当实际情形能够大体上符合这一条件,就将基于独立性前提而推导出来的算法付诸实践,得出近似的结果.
因此,如何确定可以应用"独立性"这个条件,实际上是概率应用过程中不可或缺的一步.
在实际操作中,要么是基于既往经验和问题实际意义的大胆假定,要么是基于一定的概率运算进行某种程度的验证.
概率论中的独立性定义同样类似于社会研究方法中的概念及其操作化定义之间的关系.
独立在"实质"上是想去定义两个事件之间不存在相互影响的情形,然而"不存在相互影响"是很难界定的,因此,我们选择"A发生的概率,B发生的概率"这样可操作化的方式来定义独立性.
在概率论里,在建立此定义后,就不再去探讨"实质意义"上的独立是什么意思,而将这种定义作为独立的"本质"来看待了.
这样做的好处是可以建立清晰统一的理论,坏处则是可能不能完全反映现实中的情形(在练习中将看到这一点).
但在数学理论的建立过程中,理论本身的一致性通常是数学家考虑问题的重点,至于理论能否完全匹配现实,倒往往是次一级的问题.
1.
3.
3全概公式与贝叶斯公式全概公式和贝叶斯公式(BayesFormula)是概率论中经常用到的两个公式.
定理1.
1(全概公式)全概公式的最简单形式如下:若00,i=1,2,n,则对任一事件A有P(A)=ni=1P(Bi)P(A|Bi)(1.
18)理解式(1.
17)并无特别的困难,式(1.
18)的一般化证明从略.
例1.
12假定吸烟者患肺癌的可能性是不吸烟者患肺癌的可能性的10倍.
某市烟民率为30%,且10%的市民患有肺癌.
求吸烟者罹患肺癌的概率.
解设S="烟民",L="肺癌",根据已知条件,有P(S)=3/10,P(L)=1/10,P(L|S)=10P(L|Sc).
则所求概率为P(L|S).
按全概公式有P(L)=P(S)P(L|S)+P(Sc)P(L|Sc)=P(S)P(L|S)+110P(Sc)P(L|S)代入相关数值,有110=310P(L|S)+110*1310P(L|S)将P(L|S)看成未知数,解之得P(L|S)=10/37.
此即所求概率.
第1章概率基础19定理1.
2(贝叶斯公式的事件形式)贝叶斯公式的最简单形式如下:若P(A)>0,P(B)>0,则P(B|A)=P(B)P(A|B)P(A)(1.
19)对式(1.
19)中的P(A)可进一步使用全概公式分解为P(A)=P(B)P(A|B)+P(Bc)P(A|Bc).
其一般形式如下:设B1,B2,Bn互不相容,且ni=1Bi=,若P(A)>0,P(Bi)>0,i=1,2,n,则P(Bi|A)=P(Bi)P(A|Bi)P(A)=P(Bi)P(A|Bi)ni=1P(Bi)P(A|Bi)(1.
20)这里只证明式(1.
19).
实际上,由条件概率的对称性有P(A∩B)=P(A)P(B|A)=P(B)(A|B)于是自然就有P(A)P(B|A)=P(B)(A|B)=P(B|A)=P(B)P(A|B)P(A)式(1.
20)可类似得到证明.
例1.
13一家医院的病历资料显示,在来医院检查的40岁女性中,有1%的人患有乳腺癌.
如果她有乳腺癌,则其放射线诊断呈阳性的概率为80%;如果她仅是良性肿瘤,该检测方式也会有9.
6%的概率误诊为阳性(假阳性).
现在,来该院求诊的一位女性患者在做了放射诊断得到阳性结果,试问她患乳腺癌的概率为多大解设A="放射线诊断为阳性",B="患有乳腺癌",根据已有信息,知P(B)=0.
01,P(A|B)=0.
8,P(A|Bc)=0.
096.
所求概率为P(B|A).
此题的树形图如图1.
4所示.
按贝叶斯公式的简单形式,即式(1.
19),有P(B|A)=P(B)P(A|B)P(A)=P(B)P(A|B)P(B)P(A|B)+P(Bc)P(A|Bc)=0.
01*0.
80.
01*0.
8+(10.
01)*0.
096≈0.
077620R语言统计学基础图1.
4乳腺癌问题的树形图可见患者真正罹患乳腺癌的概率较低.
这有些违反直觉.
实际上,这是一道非常著名的测试题,研究者曾以此题测试美国的医生,发现95%的医生估计,病人患乳腺癌的概率为75%.
究其原因,在于忽视了来诊女性中仅有1%的人患有乳腺癌这一先验概率(priorprobability).
这种类型的概率推理错误在前面提到的Tversky和Kahneman的研究中多有提及,大家不妨一看.
例1.
14Sabrina要从甲地至乙地开会.
她乘火车去的概率是3/10,乘船,汽车或飞机去的概率分别为1/5,1/10,2/5.
如果她乘火车去,迟到的概率是1/4;如果乘船或汽车,那么迟到的概率分别为1/3和1/12;如果乘飞机便不会迟到.
结果她迟到了.
公司决定不直接联系Sabrina询问原因的情况下猜测其所乘坐的交通工具.
试问:在此条件下,她是乘火车去的概率为多少解设事件A表示"开会迟到",B1,B2,B3,B4分别表示"乘火车""乘船""乘汽车""乘飞机"这四个事件.
显然B1,B2,B3,B4构成一个完备事件组.
由已知条件有:P(B1)=310P(B2)=15P(B3)=110P(B4)=25P(A|B1)=14P(A|B2)=13P(A|B3)=112P(A|B4)=0所求概率为P(B1|A).
由贝叶斯公式[式(1.
20)],有P(B1|A)=P(B1)P(A|B1)4i=1P(Bi)P(A|Bi)=310*14310*14+15*13+110*112+25*0=12第1章概率基础211.
4本章习题1.
10本书任意放在书架上排成一排,求指定的4本书放在一起的概率.
2.
n个人围一圆桌而坐,求A、B两人相邻而坐的概率.
3.
把n个"0"与n个"1"随机排列,求没有两个"1"连在一起的概率.
4.
一个研究团队有4个博士生和20个硕士生.
将这24人随机平均分成4组,每组6人,求:(1)每一组正好有一名博士生的概率;(2)4个博士生均在一组的概率;(3)在前面问题的基础上考虑如下问题:给定一个元素个数为n的集合,设n1,n2,nk为k个非负整数,且n1+n2nk=n.
将这个集合分割成k个互不相交的子集,使得第i个子集的元素个数正好为ni,i=1,2,k.
问一共有多少种分割法.
5.
某贴吧曾发表过一个自称是前中国男足国家青年队队员的帖子,基于他的观察分析了其同龄人参加足球培训的情况.
现将原文抄录如下:当时踢球的孩子分三种:第一种,有很多家里特别特别有钱,是抱着玩的态度来的.
比如我有两个当时的小伙伴,是南方的,家里特别有钱.
他当时跟我的教练谈话,被我听见了,意思大概是:送北方来学球,因为北方足球环境好,第二在南方孩子怕被绑架.
孩子将来踢出来高兴,踢不出来就当练好身体,回去接班做买卖(这可能是我认识的第一个土豪).
第二种,是家里条件不错,不爱念书,因为踢球可以不用读书.
第三种,父母热爱足球或自己喜欢足球.
所以说,当一开始,我们中国足球的选材面本身就很窄,也只有三分之一的孩子是真正踢足球·试问:假定"真正踢足球的孩子"就是帖子中所谓的第三种孩子.
从概率论的角度,上面的"当一开始,我们中国足球的选材面本身就很窄,也只有三分之一的孩子是真正踢足球中的"三分之一"这一概率论断有没有问题请结合所学的概率模型的相关知识具体叙述你的理由.
6.
在区间[0,1]内随机取两数,求两数之和小于75的概率.
7.
A、B两船驶向一个不能同时停泊两艘船的码头,它们在一昼夜内到达的时间是等可能的.
如果A船停泊时间为1小时,B船停泊时间为2小时,求任何一艘都不需要等待码头空出的概率.
8.
设a>0,有任意两数x,y,且03表示事件"候车时间超过3min"等.
这里也可发现,随机变量的取值情况是不同的.
例2.
1和例2.
2中随机变量的取值是有限或可列无穷个(取值个数与正整数一一对应,它虽然无穷,但可一一列举),例2.
3中随机变量的取值则是不可列的无限个,其取值连续不断地充满整个区间.
这就引出随机变量的两大类型.
定义2.
2(离散型随机变量)如果随机变量的全部取值为有限个或可列无穷个,则称其为离散型随机变量(discreterandomvariable).
如果随机变量的取值可充满实数轴上的某个区间(a,b),其中a可以是∞,b可以是∞,则称其为连续型随机变量(continuousrandomvariable).
"刨根问底"地讲,连续型的随机变量似乎只是一种数学抽象,并无实际存在的可能.
这是因为实际中的测量因其技术水平的局限,总有一定的最小测量单位,无法再做细分.
因此,就实际结果而言,多数结果都是离散的.
然而当测量单位极小,其一定区间上的取值又极密集时,不如视为连续型变量更为方便.
这便是数学抽象的好处.
当然,理论上还有既不离散、又非连续的随机变量.
这不是研究的重点.
2.
1.
2随机变量的分布函数如果还想研究感兴趣的事件Xx发生的概率,那么还需引入一个新的重要概念:随机变量的分布函数.
定义2.
3(分布函数)若X是一个随机变量,x是任意实数,则函数F(x)=P(Xx),∞b)=1F(b)P(aa时,显然f(x)=0;当01从f(x)的性质看,不论怎样定义点x=1的值,均无法使得∞∞f(x)dx=1.
实际上,不论f(1)是否存在,存在的话又如何定义,总有∞∞f(x)dx=1/2=1.
因此,F(x)对应的随机变量X并不是一个连续型的随机变量,它谈不上有什么概率密度函数.
显然,它也不是一个离散型的随机变量.
实际上,它正是前面提到的"既非连续,又非离散"的奇异型或混合型分布.
这是不做深入分析,仅举一例作拓展眼界之用.
2.
2随机变量的期望与方差2.
2.
1期望的定义对任意的随机变量,如果能知道其分布函数,当然就可以知道其取值的所有规律.
有时为了简化分布的信息,通常会用一些特征数来概括这一随机变量.
最常用的就是数学期望(简称期望,也称均值)与方差.
"期望"(expectation,或expectedvalue)是用来表示随机变量取值的稳定程度或集中程度的量,其作用类似于一般统计数据中的均值(mean).
但期望并不是普通的均值,而是一种"加权"后的均值,其权重即各个值出现的概率(在离散情形下).
这里的思想是直观的.
定义2.
6(离散型随机变量的期望)设离散型随机变量X的分布律为P(X=xi),i=1,2,n,若级数∞i=1xipi绝对收敛,则称级数∞i=1xipi的和为随机变量X的数学第2章随机变量31期望,简称期望,记为E(X),即E(X)=∞i=1xipi(2.
4)期望也可用均值的希腊字母来表示.
在i为有限值的情况下(i=1,2,3,n),离散型随机变量的期望即为E(X)=ni=1xipi(2.
5)在上面的定义中,要求级数绝对收敛的原因在于使期望唯一.
从级数理论的知识知道,如果一个无穷级数的项有正有负,则调整求和顺序后的级数值可能会发生变动,但绝对收敛的级数则可保证不论怎样变动其中的求和顺序,其级数值一定保持不变.
随机变量的取值xi可能取正值或负值,为使期望唯一,故要令这一级数绝对收敛.
而有限项的级数,其和显然一定是存在的,故有限的离散型随机变量的期望也一定是存在的.
连续型随机变量的期望定义类似于离散型随机变量,但需改造为积分形式.
定义2.
7(连续型随机变量的期望)设连续型随机变量X的密度函数为f(x),若积分∞∞xf(x)dx绝对收敛,则称E(X)=∞∞xf(x)dx(2.
6)为其期望.
若该积分不绝对收敛,则称期望不存在.
要求积分绝对收敛的原因同上.
这里对∞∞xf(x)dx再做进一步的解释.
这其实与级数∞i=1xipi没有本质区别,只是在连续型随机变量中,f(x)并不是概率值而是密度值,f(x)x才是小区间上的近似概率,再用X的取值x乘以对应的f(x)x,并在(∞,∞)上求其和式的极限,自然就得到了以上述反常积分(improperintegral,旧译广义积分)的形式出现的"加权"均值.
数学期望的理论性质是深刻的.
它是从认知或理论角度"消除"随机变量的随机性的一种数学手段:虽然随机变量的取值千变万化,但"万变不离其宗",只要满足一定条件,一定可以找出其"平均的变化趋势".
这在风险衡量、金融投资和行为决策等领域具有重要的应用.
一个随机变量的数学期望是一个常数,它表示随机变量取值的平均.
但它仍与一般数据中的算术平均值不同.
随机变量的数学期望,表明的是在可重复观测的情况下,随机变量取值的稳定性.
比如,如果说某只日光灯的期望寿命是3800小时,其意思不是指这只日光灯的寿命就是3800小时,而是如果对若干只日光灯进行检查或使用,平均而言,它们的寿命是3800小时.
但每只日光灯的寿命本身是无法预测的,其取值是随机的;只是总体而言,所有同类型日光灯的寿命都围绕3800小时左右波动.
这正如我们说某一地区新生儿的期望寿命是70岁,并不意味着每个新生儿都一定能不多不少地活到70岁一样.
32R语言统计学基础2.
2.
2方差的定义期望相同的两个随机变量,其波动程度并不一定相同.
如现实中两个班级在某门科目上的平均成绩相同,但两个班级内部学生的学习水平分化程度并不一定相同.
为了衡量随机变量的取值波动性,需要引入新的特征数,这就是方差.
如何思考随机变量的波动程度通常的思维方式中,会首先选定一个"参照基点",就像物理上思考运动过程需要有一个参考系一样,要将物体的运动具体地思考成"A相对于B"的运动,这样才能进行深入的分析.
分析随机变量波动性的"基点",理论上可以有很多种,这里不妨以期望为基点,考虑随机变量的不同取值偏离期望的程度,并以此作为其波动值的一个衡量标准.
这正是随机变量方差的基本思想.
直观地想,可以直接考虑XE(X)=X,并将这些差值一一累加,但这并不可行.
因为这一差值有正有负,最后会相互抵消[实际上可以证明E(X)=0,这一点在学完期望的性质后可一眼看出].
改进的方法,似乎可以取这一差值的绝对值,即|X|,再取其期望.
这一想法其实非常漂亮,但是数学上处理起来比较麻烦(尤其是对20世纪之前的数学而言,现在随着数学理论的发展和计算机技术的兴起,使用这种方式作为随机变量波动性衡量尺度的方法已经逐渐兴起,也具有一些非常优良的性质),故可以考虑另外一种形式:(X)2.
这样可以消去负号,且当(X)2达到最大值时,|X|也达到最大值;(X)2达到最小值(即0)时,|X|也达到最小值.
这样,以(X)2为基础构造一个随机变量波动的指标,应当是非常合理的.
由于X是一个随机变量,而是一个常数,故(X)2仍是一个随机变量.
现取(X)2的期望,即可作为随机变量波动性的良好刻画.
这就是随机变量方差定义的来源,之所以翻译为方差,正是取其"差的平方"之义.
下面给出具体定义.
定义2.
8(方差)若随机变量X2的期望E(X2)存在,则称其偏差平方[XE(X)]2的期望为随机变量X及其对应分布的方差(variance),记为Var(X)=E[XE(X)]2(2.
7)并称方差的算术平方根为标准差(standarddeviation,SD).
方差也常用希腊字母σ2(读作"sigma方")表示,标准差常用σ表示(σ其实是作为求和号的希腊字母Σ的小写形式).
也有许多教材用D(X)表示方差,其中的D是英文Deviation的缩写.
X的方差和标准差也记为σ2X和σX.
根据这一定义,可各自写出离散型随机变量与连续型随机变量的方差的计算公式.
定义2.
9(离散型随机变量的方差)离散型随机变量X的方差为Var(x)=∞i=1[xE(X)]2pi,X取值为可列个;ni=1[xE(X)]2pi,X取值为有限个(2.
8)从式(2.
7)变到式(2.
8),只是利用了离散型随机变量(在这里是[XE(X)]2)的期望定义.
第2章随机变量33定义2.
10(连续型随机变量的方差)连续型随机变量X的方差为:Var(X)=∞∞[xE(X)]2f(x)dx(2.
9)从式(2.
8)到式(2.
9),与前面离散型随机变量的期望到连续型随机变量的期望的公式转变是一个道理,这里不再重复.
方差或标准差越大,随机变量的波动性越强,表现为其取值偏离期望的可能性越大;方差或标准差越小,随机变量的波动性越小,表现为其取值更多地集中在期望附近.
实际使用中通常用标准差作为随机变量取值波动性的衡量.
其优点主要在于标准差的量纲与原始随机变量能保持一致,而方差由于存在平方化的过程,其量纲会脱离实际的情景.
2.
2.
3期望的性质对初学者来说,与期望和方差的定义相比,它们的基础性质及其应用可能是更重要的内容.
原因是入门阶段的常有分布的期望与方差均有已有定论,简单记住即可,无须再从定义角度证明.
如何利用期望与方差的性质,并结合常见分布来处理实际中的各种问题,才是真正的重点.
以下均假定期望与方差存在.
期望的基本性质如下:(1)若c为常数(下同),则E(c)=c,即常数的期望为它本身;(2)E(cX)=cE(X);(3)E(aX+b)=aE(X)+b,其中a,b为常数(下同);(4)E(X±Y)=E(X)±E(Y);(5)对任意两个函数g(x),h(x),有E[g(X)±h(X)]=E[g(X)]±E[h(X)];(6)若两个随机变量X与Y之间相互独立,则有E(XY)=E(X)E(Y);不独立时不能运用此式.
性质(1)、性质(2)、性质(3)都是很直观的,性质(4)和性质(5)已经涉及两个随机变量的情形,这里先简单列出,以便后面知识的讲述.
要统一证明这些性质并不简单.
证明过程一般要通过定理2.
1,但要证明这一定理却超出我们需要掌握的知识.
这里不加证明地列出,以便参考.
性质(6)实际已超出这里讨论的内容,涉及两个随机变量之间的情形.
两个随机变量之间相互独立的定义,这里并未探讨,先可简单地理解为两个随机变量的取值之间互不影响,则称两者独立.
后面再进行严格的定义.
定理2.
1(随机变量函数的期望)若随机变量X的分布可用分布律P(Xi)=pi或密度函数f(x)表示,则对X的任意函数Y=g(X)有E(Y)=E[g(X)]=∞i=1g(xi)pi,当X为离散型随机变量;E(Y)=E[g(X)]=∞∞g(x)f(x)dx,当X为连续型随机变量(2.
10)34R语言统计学基础感兴趣的同学可以在这一定理的基础上去证明上述性质.
这里再举一些离散情形下的简单例子,来加深理解.
例2.
8设X的概率分布列如下:求E(X2).
X01P(X)1pp解若不知定理2.
1,通常需要去求出X2的概率分布列,然后再按期望的定义去求其期望.
设随机变量Y=f(X)=X2,即把Y看成是X的一个函数.
根据函数的定义,每给定来自变量X的一个元素,总有唯一一个Y中的元素与之对应;或者说,随机变量X的每一个值,均唯一地对应Y的一个值.
这种转换过程是确定性的,不存在随机性.
也就是说,Y的取值的随机性,不来自f(X)=X2这一对应法则本身,而来自X取值本身固有的随机性.
故X2的分布列可列出如下:X201P(X)1pp如此即可求得E(X2)=1*p+0*(1p)=p.
若直接使用定理2.
1,则可直接处理如下:E(X2)=02*(1p)+12*p=p这两种做法显然是相等的.
例2.
9设X的概率分布列如下:求E(X2).
X101P(X)0.
20.
50.
3X01P(X)0.
50.
5解同样,先列出X2的分布列:注意这里的P(X2=1)=0.
5,实际上是P(X=1)+P(X=1)=0.
2+0.
3的结果,即进行函数变换后,相等的值的概率应当加以合并.
故E(X2)=0.
5*0+0.
5*1=0.
5.
若直接使用定理2.
1,则可直接处理如下:E(X2)=(1)2*0.
2+02*0.
5+12*0.
3=0.
5这两种做法也显然是相等的.
这两例内容简单,内涵却很丰富.
它们说明了利用定理2.
1,求g(X)的期望不一定要通过g(X)的分布.
这对于许多复杂问题的计算是很方便的.
当然,对于像上述两例中的简单问题,直接列出分布列的做法也不失为一种可取的办法.
例2.
10有n封内容写给不同收信人的信,随机放入n个写有不同收信人的信件中.
X是内容与信封名字正好配对的个数,求其期望.
第2章随机变量35解设随机变量Xi(i=1,2,n)为Xi=1,第i封信配对;0,第i封信没有配对则显然有X=ni=1Xi.
很容易求得E(Xi)=1*P(Xi=1)+0*P(Xi=0)=1n故E(X)=ni=1E(Xi)=n*1n=1.
此例中将一个复杂事件拆分为若干个独立的简单事件,再利用期望的性质来求复杂事件期望的做法,在概率论中很有典型性.
2.
2.
4方差的性质方差的基本性质如下.
(1)Var(c)=0,即常数的方差为0;(2)Var(X+c)=Var(X);(3)Var(aX+b)=a2Var(X);(4)Var(X)=E(X2)[E(X)]2;(5)若X与Y之间相互独立,则Var(X±Y)=Var(X)+Var(Y).
性质(1)是显然的.
性质(2)为性质(3)的特殊情形.
下面对性质(3)和性质(4)做简单证明.
证先证性质(3).
利用方差的定义和期望的性质,有Var(aX+b)=E[(aX+b)E(aX+b)]2=E[aX+baE(X)b]2=a2E[XE(X)]2=a2Var(X)再证性质(4).
同样利用方差的定义和期望的性质,有Var(X)=E[XE(X)]2=E{X22X·E(X)+[E(X)]2}=E(X2)2E[X·E(X)]+E[E(X)]2=E(X2)2E(X)·E(X)+[E(X)]2=E(X2)[E(X)]2性质(4)经常用来做一些证明和实际运算.
36R语言统计学基础注意性质(5)中,对相互独立的X和Y,不论X+Y还是XY,其方差只会变大,不会变小,原因在于利用性质(3)可知Var(Y)=Var(Y).
但这一公式只适用于X和Y相互独立的情形.
这里先不证这一性质,在学完随机变量独立性的内容后,可很快证得这一点.
例2.
11某路段施工的工程队完成其所承包的工程的时间X(单位:月)为一随机变量,它满足如下分布.
求:(1)求该施工队完成其工程的期望月数与标准差;(2)若该施工队的利润为Y=60(13X),单位为万元,求其期望利润与标准差.
X10111213P(X)0.
20.
30.
40.
1解(1)利用期望与标准差的定义,求得E(X)=11.
4(月),Var(X)=√0.
84=0.
917(月).
实际工作中,此类运算完全可利用计算器或统计软件进行,不必手算.
(2)E(Y)=E[60(13X)]=60E(13X)=78060E(X)=96(万元).
Var(Y)=Var[60(13X)]=602Var(13X)=3600Var(X)=3027.
故标准差为√3027=55(万元).
例2.
12设连续型随机变量X的分布函数为F(x)=ex2,x0.
5时,有少数的值偏向左侧(称为左偏).
图2.
1二项分布的概率质量分布定理2.
2二项分布的期望和方差分别为E(X)=npVar(X)=np(1p)(2.
12)第2章随机变量39这里使用期望和方差的性质来作一证明.
为此,先说明二点分布,或伯努利分布(Bernoullidistribution)这一概念.
二点分布实际上是n=1时的二项分布,其分布列如下:X01P(X)1pp其中,X=0表示感兴趣的事件不发生,X=1表示感兴趣的事件发生.
根据离散型随机变量期望和方差的定义,很容易算出二点分布的期望为p,方差为p(1p).
符合上述特征的试验称为伯努利试验(Bernoullitrial).
显然,二项试验就是n次独立的伯努利试验,也称为n重伯努利试验.
现在,设Xi(i=1,2,n)是一系列独立同分布的二点分布随机变量,记Xi=1,第i次试验成功;0,第i次试验失败并设第i次试验成功的概率为p.
记X=X1+X2Xn.
则X恰好就是服从B(n,p)的随机变量.
利用期望和方差的性质,可知:E(X)=E(X1+X2Xn)=E(X1)+E(X2)E(Xn)=npVar(X)=Var(X1+X2Xn)=Var(X1)+Var(X2)Var(Xn)=np(1p)如果直接从定义去证明这两点,其实是不容易的,需要对组合公式的性质运用非常熟练.
而掌握期望和方差的性质后,理解上面的过程就应当没有什么难度.
例2.
14某酒店只允许有预订的顾客就餐.
根据过去的记录发现:预订餐厅位置而不来就餐的顾客比例为20%.
该餐厅共有100个位置,但预订了120位顾客,求到时顾客来到餐厅而没有位置的概率.
解设X=预订的120人中到时来到餐厅的顾客人数,则XB(120,0.
8).
P(X>100)=1P(X100)=0.
1517135.
计算使用软件进行.
R的命令为1-pbinom(100,120,0.
8),其中100表示成功次数,120表示试验总数,0.
8表示每次成功的概率.
其余参数的情形可类推.
关于R语言的概率计算相关功能,可参考本书电子版附录中《R语言中的常用数学函数与概率函数》一节的相关内容,或进一步查阅相关参考资料.
2.
3.
2泊松分布定义2.
12(泊松分布)若随机变量X的分布律由式(2.
13)给出P(X=k)=eλλkk!
,k=0,1,2,2.
13)其中参数λ>0,则称X服从参数为λ的泊松分布(poissondistribution),这里记为XP(λ).
也有些书记为Xπ(λ)、XPoisson(λ)等形式.
40R语言统计学基础式(2.
13)满足概率分布的定义,这是因为有∞k=0eλλkk!
=eλ∞k=0λkk!
=eλeλ=1(2.
14)其中第二个等号之所以成立,是利用了常见的泰勒展开式ex=1+x+x22!
xkk!
∞k=0xkk!
(2.
15)取x=λ即可证得上面的结果.
以下还将利用式(2.
15)证明其他性质.
泊松分布只有1个参数:λ.
某些时候这一参数也写为,这是为了突出泊松分布的重要性质:其期望()与方差(σ2)都是λ.
下面将证明这一结论.
若X服从参数为λ的泊松分布,则根据离散型随机变量的期望与方差定义,有E(X)=∞k=0keλλkk!
=∞k=1keλλkk!
(因k=0这一项为0,可省略1项)=λ∞k=1eλλk1(k1)!
=λ∞m=0eλλmm!
[令m=k1,并利用式(2.
14)的结果]=λ(2.
16)类似地,有E(X2)=∞k=0k2eλλkk!
=∞k=1kλeλλk1(k1)!
m=k1=======λ∞m=0(m+1)eλλmm!
=λ∞k=0meλλmm!
+λ∞k=0eλλmm!
=λE(X)+λ=λ2+λ(2.
17)如此可由方差的计算公式得到Var(X)=E(X2)[E(X)]2=λ2+λλ2=λ(2.
18)第2章随机变量41λ也常称为泊松分布的速率(rate)或强度(intensity),它表示单位时间(单位面积)内随机事件的平均发生率或平均发生次数.
可以证明若某事件在不同时间区间内独立发生、且单位时间内其发生概率不变,则一段时间内该事件发生的总数将会服从泊松分布.
这正是泊松分布得以广泛应用的基本背景.
证明稍后给出.
泊松分布是以18—19世纪的法国数学家Simeon-DenisPoisson(1781–1840)的名字命名,但更早之前已由数学史上著名的伯努利家族中的某位成员描述过,它本身也与n重伯努利分布即二项分布关系密切,通常作为二项分布的极限分布出现.
泊松分布适用于近似描述单位时间或空间内随机事件发生的次数,如某一服务设施在一定时间内到达的人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,某城市一天内的交通事故次数,等等.
泊松分布的形状取决于λ的大小.
λ的值越小,右偏越明显;随着λ值变大,随机变量取值为0的可能性变小,分布迅速趋于对称;随机变量取值在均值附近的概率较大,其他地方的取值概率较小.
当λ=20时,泊松分布已近似于后面将学习到的正态分布.
图2.
2展示了这种变化过程.
图2.
2泊松分布的概率质量函数若某个随机变量服从二项分布B(n,p),则当n很大、p很小时,使用泊松分布来代替二项分布可以取得较好的近似效果,且可大大简化运算的复杂性(这对处于前计算机时代的研究者而言意义重大,但对于拥有计算机的当代研究者而言,即便是使用二项分布求精确值,通常也不是什么难事).
这一性质称为泊松定理.
泊松分布具有可加性,即若XP(λ1),YP(λ2),则有Z=X+YP(λ1+λ2).
但应注意XY不服从泊松分布.
具体证明这里略去.
这里顺便指出,可加性意指"同一类分42R语言统计学基础布的独立随机变量和的分布仍属于此类分布",二项分布、正态分布、指数分布、卡方分布等都具有可加性.
可证明若XB(n,p),则当n→∞,p→0且np保持为固定常数λ时,二项分布的极限分布为泊松分布.
证明请见本书电子版附录.
在实际应用中,所以泊松分布常被用来研究稀有事件的频数(即n很大、p很小),尤其当λ=npm+n|X>m)=P(X>n)(2.
21)先解释上面定理的意思.
在若干次伯努利试验序列中,首次成功(记为A)出现时的试验次数(X)服从几何分布.
而事件X>m表示前m次试验中A没有出现.
此时若再进行n次试验,而A仍然没有出现,这就是事件X>m+n.
上述定理表明,在前m次试验中A没有出现的情况下,在接下去的n次试验中A仍然没有出现的概率,与重新开始进行n次试验而未出现A的概率相同,而与前面的m次试验无关,似乎"忘了"前m次的结果一样.
下面来证明定理2.
3.
44R语言统计学基础证根据几何分布的概率分布律有P(X>n)=∞k=n+1(1p)k1p=p(1p)n1(1p)=(1p)n所以P(X>m+n|X>m)=P({X>m+m}∩{X>m})P(X>m)=P(X>m+n)P(X>m)=(1p)m+n(1p)m=(1p)n=P(X>n).
如果试验出现第一次成功后仍不停止而继续进行,令随机变量X表示出现第r次成功时的试验次数,则X服从参数为(r,p)的负二项分布(negtivebinomialdistribution),常记作XNb(r,p),其分布律为P(X=k)=k1r1(1p)krpr(2.
22)该分布律的来由如下:在负二项分布中,最后一次试验一定出现成功(概率为p).
于是前k1次中就只有r1次成功,由二项分布即可知这部分的概率为k1r1pr1(1p)kr,再乘以最后一次成功的概率p,即得式(2.
22).
几何分布可以视为在r=1时的负二项分布,而负二项分布的随机变量可以视为若干个独立同分布的几何分布随机变量之和.
明白这一点,可以很好地理解负二项分布的期望和方差为什么分别为E(X)=rpVar(X)=r1pp2(2.
23)例2.
15据南开八卦小分队的研究,每天中午11:30至12:30之间,南开二食堂门口的美女出现率为20%.
柴教授决定在该时间段在食堂门口亲自验证这一论断.
回答以下问题.
(1)若此概率为真,平均而言,他需要观察多少女生,才能遇到一位美女(2)连续观察10名女生,仍未发现美女的概率多大(3)柴教授遵循如下的思维方式:发生概率小于等于5%的事件是小概率事件,仅做一次观测的话,这种事件不应当发生.
但如果在仅有的一次观测中这种事件真的发生了,那人们就更应当倾向于认为之前提供的关于这一事件发生的信息存在误导的可能.
设他在该时间段总共观察了100名女生,认定的美女人数为10人,请问根据上述思维模式,他是否有足够的理由认为:八卦小分队提出的"二食堂门口美女率为20%"这一论断有抬高美女率的可能这里均假定人们对美女的判定标准相同,且设在此时间段南开大学有足够多的女生路过二食堂门口.
解(1)设X为发现第一名美女时已观察的女生数.
若八卦小分队的概率为真,则近似有XG(0.
2).
故E(X)=5,即平均而言需要观察5人才能遇到一位美女.
第2章随机变量45(2)连续观察10名女生,仍未发现美女的概率为P(X>10)=1P(X10)=0.
1073742.
也就是说,如果柴教授连续观察100天,大约只有不到11天的时间,会出现连续观察10名女生而未见到一位美女的情况.
这里的计算使用了统计软件,R能快捷地实现这些运算.
此题的R语言命令为1-pgeom(9,0.
2),其中,pgeom(k-1,p)给出的是失败次数小于等于k1的几何分布的累积概率.
注意几何分布实际上是r=1时的负二项分布.
另外,要注意在R的帮助文档中,pgeom()(R中的函数名称后习惯带有小括号)应当为pgeom(q,p),给出失败次数小于等于q的几何分布的累积概率.
这里为了适应本书中的公式记号,做了一定的符号变动,但不影响实质.
(3)若0.
2这一概率为真,以X表示观察的100名女生中的美女人数,则近似有YB(100,0.
2).
故P(Y10)=10k=0100k0.
2k0.
8100k=0.
00569638110)=0.
5(为什么).
设Y为10次独立观测中的X的值大于10的次数.
分析条件可知XB(10,0.
5).
故1P(Y=0)=1100*0.
50*0.
510=0.
9990234即为所求概率.
最后一步的R命令为1-pbinom(0,10,0.
5).
2.
4.
2指数分布定义2.
15(指数分布)若随机变量X的密度函数为f(x)=λeλx,x0;0,x0.
指数分布是一种偏态分布(skeweddistribution,泛指不对称的分布),其值只能取非负值(图2.
4).
许多"寿命"问题常用来它模拟,如电子元件的寿命、动物的寿命、电话的通话时间、随机服务系统中的服务时间等可近似认为服从不同参数的指数分布.
图2.
4不同均值的指数分布密度函数曲线指数分布的期望和方差如下:E(X)=1λVar(X)=1λ2(2.
29)48R语言统计学基础这是因为E(X)=∞∞xf(x)dx=∞0xd(λeλx)=xeλx∞0∞0eλxdx=1λeλx∞0=1λ类似可得方差的公式,这里省略.
有时也记θ=1/λ,此时θ即为指数分布的期望.
对指数分布的密度函数积分很快可以得出其分布函数为F(x)=1eλx,x0;0,xs+t|X>s)=P(X>t)(2.
31)无记忆性的意思在几何分布里已经提过.
对于指数分布,可做具体化解释如下.
设X表示某产品的使用寿命(单位:小时),则其使用s小时而不发生故障的概率为P(X>s),在此基础上再使用t小时而不发生故障的概率为P(X>s+t|X>s),相当于重新开始使用t小时的概率P(X>t),而与之前已使用的s小时无关.
下面来证明定理2.
4.
证根据指数分布的概率分布律有P(X>t)=1P(Xt)=1(1eλt)=eλt所以P(X>s+t|X>s)=P({X>s+t}∩{X>s})P(X>s)=P(X>s+t)P(X>s)=eλ(s+t)eλs=eλt=P(X>t)这就证明了指数分布的无记忆性.
例2.
17某设备在任何时长为t的时间区间[0,t]发生故障的次数N(t)服从参数为λt的泊松分布,求相继两次故障之间的时间间隔T服从的分布.
解由N(t)P(λt),得P[N(t)=k]=eλt(λt)kk!
,k=0,1,2,···显然T是个取值非负的随机变量,且事件{T>t}说明时间段[0,t]内没有发生故障,即{T>t}={N(t)=0},那么自然有P(T>t)=P[N(t)=0].
第2章随机变量49故当tt)=1P[N(t)=0]=1eλt(λt)00!
=1eλt.
这正满足参数为λ的指数分布的定义,即TExp(λ).
此例实际上说明了泊松分布与指数分布的关系.
例2.
18根据长时间的统计,发现顾客在西南村银行的窗口等待服务的时间(单位:min)服从如下指数分布f(x)=15ex5,x0;0,x10)=1P(X10)=1(1e2)=e2.
则显然YB(10,e2).
故P(Y2)=1P(Y1)=0.
4007685最后计算仍使用软件进行.
R语言命令为1-pbinom(1,10,exp(-2)).
2.
4.
3正态分布正态分布(normaldistribution),又称高斯分布(Gaussdistribution),以纪念数学家高斯(FriedrichGauss,1777—1855)在该分布的推导过程中的贡献①.
它可能是目前应用得最为广泛,因而也是最重要的连续型分布.
通常情况下,一个变量若是由大量微小而独立的随机因素的叠加构成,则此变量就是服从正态分布的变量.
例如工业生产中在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;生物学上同一种生物体的身长、体重等指标;物理上同一物体的测量误差,理想气体分子的速度分量;地理上某个地区的年降水量;等等.
定义2.
16(指正态分布)若随机变量X的概率密度函数为f(x)=1√2πσe(x)22σ2,∞0.
其分布函数为F(x)=1√2πσx∞e(t)22σ2dt,∞65)=0.
63242.
这里假定了每个成年男子的身高相互独立.
故所求概率为P(Y5)=1P(Y4)=0.
8828.
计算均使用软件进行.
54R语言统计学基础例2.
22设某市成年男子身高X近似服从正态分布N(172,6)(单位:cm).
(1)问应如何选择公共汽车车门的高度使男子与车门碰头的机会小于0.
01(精确到整数位)(2)若车门高185cm,求100个成年男子中与车门碰头的人数不多于2个的概率.
解(1)设车门高度应设为acm才能满足要求,即P(Xa)=1P(Xa)=0.
01,XN(172,6).
这相当于求P(Xa)=0.
99中的a.
利用R软件输入命令qnorm(0.
99,172,6)得答案为185.
9581≈186即为所求高度.
(2)设Y为100个该市成年男子中与车门碰头的人数,则近似有YB(100,p),其中p=P(X185)=0.
0151.
这里假定每个成年男子的身高之间相互独立.
故所求概率为P(Y2)=0.
8073.
计算使用软件进行,R命令为:pbinom(2,100,0.
0151).
例2.
23设XN(,σ).
求以下概率:(1)P(σX+σ);(2)P(2σX+2σ);(3)P(3σX+3σ).
解三个题的解法是一致的,这里重点说明第(1)小问,后面的类似得出P(σX+σ)=P(X+σ)P(Xσ)=PZ+σσPZσσ=P(Z1)P(Z1)=0.
6827最后的计算使用软件得出.
后面两题可以类似解出答案如下P(2σX+2σ)=0.
9545;P(3σX+3σ)=0.
9973实用中通常将此称为"68-95-99.
7"定律,即对于服从正态分布的变量而言,有68%的取值落在均值左右各一个标准差的范围内;有95%的取值落在均值左右各两个标准差的范围内;99.
7%落在均值左右各三个标准差的范围内.
这可以方便人们迅速地得到关于分布的一些基本信息.
例如,如果告知中国成年女性的身高服从N(163,6)(单位:cm)分布,则可很快知道:大约有68%的我国成年女性身高在157cm至169cm之间,大约有95%的我国成年女性身高在151cm至175cm之间,大约有99.
7%的我国成年女性身高在145cm至181cm之间,这应该还是比较符合实际感知的.
实际上,此规律不仅仅适用于分布,对于大体上钟型对称的分布,它也同样适用的,这称为经验法则(empiricalrule).
这在第3章会有进一步的介绍.
除了上述分布外,常用的连续型分布还有t分布、χ2分布、F分布,会在阐述抽样分布的内容时再行介绍.
第2章随机变量552.
5随机变量函数的分布本章一开始就提出,若X为随机变量,则任何关于X的函数g(X)也是一个随机变量.
那么g(X)也会拥有自身的分布函数.
如何通过X的分布来求g(X)的分布,自然成为一个值得研究的问题.
2.
5.
1离散型随机变量的情形X为离散型随机变量的情形较为简单.
设X的概率分布列如下:Xx1x2···xn···P(X)p1p2···pn···此时g(X)也为离散型随机变量,其所有可能取值及对应的概率如下:Xg(x1)g(x2)···g(xn)···P(X)p1p2···pn···再将上表中等值[g(xi)=g(xk),其中i,k=1,2,的概率相加,即可得到g(X)的分布.
下面仅举一例.
例2.
24设随机变量X的分布列如下,求Y=|X|和Z=X2+X的分布列.
X101P(X)0.
20.
30.
5解Y的所有可能取值为0,1,而P(Y=0)=P(X=0)=0.
3P(Y=1)=P(X=1)+P(X=1)=0.
7故Y的分布列如下:Y01P(Y)0.
30.
7类似地,Z的可能取值为0,2,且P(Z=0)=P(X=1)+P(X=1)=0.
5P(Z=2)=P(X=1)=0.
5故其分布列如下:Z02P(Z)0.
50.
556R语言统计学基础2.
5.
2连续型随机变量的情形连续型随机变量的函数的分布稍显麻烦.
这里先给出三个简单的例子,再给出较为统一的方法.
例2.
25设随机变量XU(0,1).
求Y=Xn的分布.
解由条件知fX(x)=1,00.
对上式对y求导,有fY(y)=fX[h(y)]·h(y)同理可证得当y=g(x)为严格单调递减函数时,上述过程也成立,但要对h(y)加上绝对值符号[具体过程略去不证,简单可理解如下:如果不加绝对值符号,fY(y)将是负的,不满足密度函数的要求].
下面用定理2.
6来证明一个重要结论,并以定理形式呈现.
定理2.
7若XN(,σ),则Y=aX+bN(a+b,|a|σ),其中a,b为常数,且a=0.
证X与Y的取值范围均为(∞,∞).
当a>0时,y=ax+b(a=0)为严格增函数,其反函数为x=h(y)=yba,h(y)=1a.
于是根据定理2.
6有fY(y)=fX[h(y)]·h(y)=fXyba·1a=1√2πσe(yba)22σ2·1a=1√2π(aσ)e[y(a+b)]22(aσ)2这正是正态分布N(a+b,aσ)的密度函数.
当a0时,分布为正偏(positivelyskewed),又称右偏(rightskewed),从密度函数的图像上看,此时其右侧尾巴比较长;当βs0时,分布比正态密度函数的峰部更尖峭,尾部更细(lighttail).
关于正态分布的偏度系数和峰度系数的推导均可由前面k阶矩的相关知识和结论推导得出,这里不细展开.
实际工作中,这两个系数通常由软件去计算,公式仅作为参考之用.
这两个系数的设置均以正态分布为基准构建,当一个未知分布的βs和βk均接近0时,常认为该分布近似于正态分布.
这在以后的数据正态性检验中具有重要的实际作用.
2.
7多维随机变量初步现实中仅研究一个随机变量的分布往往是不够的,通常需要联合其他随机变量的分布来研究随机现象.
例如身高与体重的规律,车流量与车祸的发生率,等等,这就会遇到多维随机变量的情形.
多维随机变量包括二维和二维以上的情形,这里仅对二维的情况做出简单概括,二维以上的情形可类似给出.
多维随机变量的内容涉及重积分的内容,计算上相对烦琐,这里不具体展开,仅介绍相关基本概念与定义,以便引出随机变量的独立性,相关系数与协方差等入门统计学中常涉及的基本概念.
2.
7.
1多维随机变量的基本概念定义2.
23(n维随机变量)若X1(ω),X2(ω)Xn(ω)是定义在同一样本空间={ω}上的n个随机变量,则称X(ω)=(X1(ω),X2(ω)Xn(ω))(2.
50)为n维(或n元)随机变量,又称随机向量(randomvector).
多维随机变量定义在同一样本空间上,这可以为以下的讨论提供方便.
定义2.
24(联合分布函数)对任意n个实数x1,x2,xn,n个事件{X1x1},{X2x2}Xnxn}同时发生的概率F(x1,x2,xn)=P(X1x1,X2x2,Xnxn)(2.
51)称为n维随机变量的联合概率分布函数(jointlyculmulativeprobabilitydistributionfunction),简称联合分布函数.
等式右侧中的逗号即表示同时发生的意思.
在二维随机变量(X,Y)的场合,联合分布函数F(x,y)=P(Xx,Yy)就是事件{Xx},{Yy}共同发生的概率.
任意二维随机变量的联合分布函数都满足单调性、规范性、有界性这三个与一维随机变量的分布函数相同的特征,同时还满足非负性这一特征,即62R语言统计学基础对任意的a0的yj,称pi|j=P(X=xi|Y=yj)=P(X=xi,Y=yj)P(Y=yj)=pijp·j,i=1,2,2.
65)为给定Y=yj条件下的X的条件分布.
给定X=xi条件下的Y的条件分布可类似写出.
定义2.
30(连续型随机变量的条件分布)设二维随机变量(X,Y)的联合密度函数为f(x,y),边际密度函数分别为fX(x),fY(y),则对任意使fX(x)>0的x,给定X=x条件下的Y的条件分布函数和条件密度函数分别为F(y|x)=y∞f(x,v)fX(x)dv(2.
66)f(y|x)=f(x,y)fX(x)(2.
67)请注意条件分布的定义与条件概率在形式上的相似性.
在了解条件分布密度函数的概念后,可进一步给出连续型随机变量的全概公式和贝叶斯公式,这是贝叶斯统计学的核心概念.
第2章随机变量65定义2.
31(连续场合的全概公式)全概公式的密度函数形式为fY(y)=∞∞fX(x)f(y|x)dx;(2.
68)fX(x)=∞∞fY(y)f(x|y)dy(2.
69)定义2.
32(连续场合的贝叶斯公式)贝叶斯公式的密度函数形式为f(y|x)=fY(y)f(x|y)∞∞fY(y)f(x|y)dy(2.
70)f(x|y)的形式也可类似写出.
仍请注意连续场合的贝叶斯公式与事件形式的贝叶斯公式在本质上的一致性.
定义2.
33(条件期望)条件分布的数学期望称为条件数学期望(conditionalexpectedvalue),定义如下:E(Y|X=x)=jP(Y=yj|X=x),(X,Y)为离散型随机变量;∞∞yf(y|x)dy,(X,Y)为连续型随机变量条件期望E(X|Y=y)可类似写出.
条件期望E(Y|X=x)是x的函数.
对x取不同的值,条件期望E(Y|X=x)也有发生变化,为此可记为g(x)=E(Y|X=x)同时,条件期望也仍然是一个随机变量.
现代统计学中的一大类回归方法,就是关于条件期望的预测方法,这将在后面的学习中遇到.
正如事件的独立性可以通过条件概率与无条件概率相等这一原则来判定一样,随机变量的独立性也可通过条件分布来定义.
这种定义在(X,Y)为二维连续型随机变量的场合尤为适用.
此时若有fY|X(y|x)=fY(y)或fX|Y(x|y)=fX(x)(2.
71)则称随机变量X与Y是相互独立的.
这与前面的随机变量的独立性定义等价.
这里要特别指出,如果XN(1,σ1),YN(2,σ2),且X,Y相互独立,则有X+YN(1+2,σ21+σ22).
此结论可推广到有限个独立正态变量之和的场合.
这称为正态分布的可加性.
但如果X,Y不相互独立,则此结论不成立.
例如,设XN(0,1),Y=X,则YN(0,1),但X+Y≡0.
这是一个退化分布,取值恒为0.
即使是两个非独立的正态随机变量之和仍为正态分布,其方差也不是Var(X)+Var(Y)=σ21+σ22,而是Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y),其中Cov(X,Y)的定义接下来就将介绍.
这一点应当明确.
66R语言统计学基础同时,又因为有aXN(a,|a|σ),其中a为不为零的实数,因此有另一重要结论:任意n个相互独立的正态随机变量的线性组合仍服从正态分布,即a1X1+a2X2anXnN(0,σ0)(2.
72)其中,0=ni=1aii,σ20=ni=1a2iσ2i(2.
73)例如,设XN(3,1),YN(2,2),且X,Y相互独立,则2X3Y10N(2,√40).
2.
7.
4协方差与线性相关系数多维随机变量的特征数除了期望和方差外,还涉及协方差和相关系数这两个关键概念.
在未来的统计学学习中,它们将扮演重要的角色,这里作一简单说明.
类似于一维随机变量函数的数学期望,对二维随机变量函数的数学期望有如下定理存在(n维随机变量的情形与此类似).
定理2.
8(二维随机变量函数的数学期望)若二维随机变量为(X,Y),则Z=g(X,Y)的期望(假设存在)为E[g(X,Y)]=ijP(X=xi,Y=yi),离散场合;∞∞g(x,y)f(x,y)dxdy,连续场合(2.
74)前面曾经列出过随机变量期望和方差的部分性质,这里再做一些补充.
在X1,X2,Xn相互独立的前提下,有E(X1X2···Xn)=E(X1)E(X2)···E(Xn);Var(X1±X2Xn)=Var(X1)+Var(X2)Var(Xn)但无论X1,X2,Xn是否独立,总有E(X1±X2Xn)=E(X1)±E(X2)E(Xn)成立.
但对于方差来说却并非如此.
两个随机变量加减之后的方差,在不独立时的情形比期望复杂.
这涉及协方差的概念.
定义2.
34(协方差与相关系数)若E[(XE(X))(YE(Y))]存在,则称Cov(X,Y)=E[(XE(X))(YE(Y))](2.
75)为随机变量X与Y的协方差(covariance).
同时称ρXY=Cov(X,Y)Var(X)Var(Y)=Cov(X,Y)σXσY(2.
76)为X与Y的线性相关系数(coecientoflinearcorrelation),通常简称相关系数并简记为ρ.
第2章随机变量67协方差实际上是X的取值与其期望的偏差"XE(X)",以及Y的取值与其期望的偏差"YE(Y)"的乘积的期望.
协方差的一个重要作用是用它来定义两个随机变量之间的线性相关程度:(1)当XE(X)与YE(Y)同时增加或同时减少(即X与Y同时增加或同时减少,因为E(X)与E(Y)都是常数)时,有Cov(X,Y)>0,即ρ>0,此时称X与Y之间存在正线性相关(positivelinearcorrelation);(2)当XE(X)与YE(Y)一个增加而另一个减少(即X与Y一个增加而另一个减少)时,有Cov(X,Y)0,即X与Y的所有取值落在一条斜率为正的直线上;(5)若ρXY=1,则Y=aX+b中的a0,则X与Y之间存在正线性相关,ρXY越接近1,正线性相关性越强,体现在图像上,即X与Y之间的取值越发紧密地围绕在一条斜率为正的直线周围;(8)若ρXY0,有limn→∞P(|Mn0(2.
81)这就是大数定律(lawoflargenumbers,LLN).
准确地说,上述定理应当称为"弱大数定律"(weaklawoflargenumbers),其更严格的形态称为"强大数定律"(stonglawoflargenumbers),其内容如下:定理2.
10(强大数定律)设独立同分布的随机变量序列X1,X2,···的公共分布的均值为,标准差为σ.
定义样本均值Mn=1nni=1Xi=X1+X2Xnn(2.
82)则Mn以概率1收敛于,即Plimn→∞Mn==1(2.
83)这就是强大数定律(stonglawoflargenumbers).
对初学者而言,弱大数定律与强大数定律之间的差别是微妙的,但暂不必深究.
其实用意义在于,强大数定律以数学形式保证了如下直观论断:在重复独立的试验序列中,可以肯定地说(概率为1),事件A长时间出现的频率就是概率P(A).
第2章随机变量71大数定律之所以称为"定律"(law)而不是"定理"(theorem),并不是因为它没有得到证明,而是因为它很早已经为人们从经验中熟知并付诸应用,尽管在应用时并没有进行数学上的严格证明.
当然,从现在的视角看,称为"大数定理"也是合适的,这也是许多教材的叫法.
简言之,抛却数学形式,大数定律的内容就是如下两句话:频率值稳定于概率值,平均值稳定于期望值.
再次提醒要准确地理解"稳定于"的意思.
弱大数定律和强大数定律的证明这里略去,理解内容即可.
2.
8.
2中心极限定理前面曾提出了问题:"若X1,X2,Xn为一系列的随机变量,那么Sn=X1+X2+···+Xn的极限分布为何"中心极限定理(centrallimittheorem,CLT)回答的就是这一问题:在一定条件下,随机变量和的极限分布通常为正态分布.
而正态分布的性质清晰明确,是最经常使用的连续型分布,这能够为概率运算提供极大方便.
中心极限定理有多种形式,这里不去具体论述和证明,仅给出一些常用的中心极限定理的条件与结论.
定理2.
11(中心极限定理)设X1,X2,Xn是独立同分布的随机变量序列,E(Xi)=,Var(Xi)=σ2,i=1,2,n.
记Zn=X1+X2Xnn√nσ显然E(Zn)=0,Var(Zn)=1.
可证明Zn的分布函数的极限分布为标准正态分布函数,即对任意x有limn→∞P(Znx)=1√2πx∞et22dt也即当n充分大时,近似地有ZnN(0,1).
从上面的定理中可以看出,Zn其实是Sn=X1+X2Xn的标准化过程,故上述定理也相当于是说,当n充分大时,近似地有SnN(n,√nσ).
另外,若记X=Sn/n,则自然有当n充分大时,近似地有XN,σ√n的结论;也就是说,大量独立同分布的随机变量的均值近似服从正态分布.
这一形式的结论在后面的统计学中应用最为广泛.
实际中还有一个应用广泛的中心极限定理形式,常称为"棣莫弗-拉普拉斯(DeMoivre–Laplace)中心极限定理",它是概率论历史上的第一个中心极限定理,专门针对二项分布,也称为"二项分布的正态近似"(normalapproximationtobinomialditribution).
它可以为是定理2.
11一种特殊情况.
定理2.
12(棣莫弗–拉普拉斯中心极限定理)设X1,X2,Xn是独立同分布的随机变量序列,Xi的分布如下:Xi01P(Xi)1pp即Xi为二点分布.
记Sn=X1+X2Xn,显然Sn表示这n重伯努利试验中的指定事件出现的次72R语言统计学基础数.
则对任意x,有limn→∞PSnnpnp(1p)x=1√2πx∞et22dt也即当n充分大时,近似地有SnN[np,np(1p)].
注意到np和np(1p)正好分别是二项分布B(n,p)的期望与方差.
中心极限定理是应用非常具有一般性的定理,只要随机变量序列独立同分布,期望存在,方差有限,就可以得出相应结果,而对Xi的分布没有任何其他要求.
Xi可以是离散的、连续的,或是混合的.
实际上还有更强形式的中心极限定理.
定理2.
11要求随机变量序列独立同分布,实际中独立性较好满足,同分布则是非典型情况.
但仍可证得,当上述的随机变量和Sn中的各项(Xi)中不存在起突出作用的项,即各项在概率意义下"均匀地小"时,Sn的极限分布仍是正态分布.
例如,在实际生产中,齿轮的直径误差受到一系列随机因素的影响,如钢材的成分、车间的湿度、工作电压、工人的技术、机器的装备与磨损等.
这些因素非常众多,每个因素的作用是随机的,可正可负、可大可小、时有时无,它们之间可以认为相互独立,但服从不同分布.
但一般而言没有哪个因素在误差形成中占据绝对主导的地位,故最终仍可认为,直径的误差近似服从正态分布.
生活中的许多例子,如身高、体重、镜片磨损度、参与人数众多的考试成绩、个体的某些心理状态都可以认为存在类似的多种"作用均匀地小的"影响因素,因此都可近似认为服从正态分布.
这些也已在实际调查中得到了强有力的验证.
大数定律揭示了大量随机变量的平均结果,但没有涉及随机变量分布的问题.
而中心极限定理说明的是在一定条件下,大量独立随机变量的均值的极限分布是正态分布.
正是基于这种实际性质,中心极限定理取得了概率论定理中的核心地位.
这也说明正态分布在实际应用中的重要性.
中心极限定理经由Laplace等古典及近代数学家的努力,于20世纪初获得了较为严格的形式,并由数学家GeorgePolya(1887—1985,著有《怎样解题》等)于1920年命名为"CentralLimitTheorem",以说明它在初等概率论中的核心地位.
在实际应用中,对"n到底取多大才能算充分大"的回答并不统一.
泛泛而言,至少要求n30,或更严格一些n50.
然而这仍需视实际情形而定,这只是一个简便的标准.
总之,n越大,近似的效果越好.
而对于二项分布的正态近似,除了n的值之外,对p的取值也有一定要求.
若p较接近0.
5,则近似效果较好,对n的要求不是很高;若p接近0或1,则要求有更大的n才能达到相当的近似精度.
此时通常使用np10,n(1p)10作为二项分布的正态近似的联合判定的标准.
此时单纯考虑n30是不够的,例如当n=100,但p=0.
000001时,近似的效果仍然不好.
故此时一般不再检验n30这一条件.
随着计算机软件的兴起,这种正态近似的实用性正在逐渐减弱:若直接使用二项分布能够取得更精确的结果,而软件又能方便快捷地给出计算结果,为什么还要做正态近似呢当然,仍有一些情况,使用中心极限定理和正态近似是比较方便的.
这里给出几例.
例2.
31一学校有1000名学生.
每天中午下课后,每人都以80%的概率去食堂用餐,问食堂至少应设多少个座位,才能以95%的概率保证同时去用餐的同学都有座位解设X="中午同时去食堂用餐的人数",又设食堂至少有a个座位才能满足题设要求.
假设每个人中午是否去食堂是相互独立,故XB(1000,0.
8).
根据题意,应求出满足第2章随机变量73P(Xa)0.
95中的a.
如果直接用二项分布,除非利用软件进行编程,否则比较难求.
但利用中心极限定理,转化为正态分布后则较为容易.
检查条件,此时1000*0.
8=800>10,1000*(10.
8)=200>10,故可对二项分布做正态近似,即近似有XN(800,12.
65),其中12.
65是1000*0.
8*0.
2的算术平方根.
于是,P(Xa)=PZa80012.
650.
95由R命令qnorm(0.
95)得到对应标准分为1.
645,故有a80012.
651.
645解得a820.
8093.
故取a=821即可满足要求.
注:此题在做完正态近似后,可直接用R命令qnorm(0.
95,800,sqrt(1000*0.
8*0.
2))得出答案820.
8059.
从中也可看到软件的便利性.
实际上,既然已有了可以直接计算二项分布相关概率的软件,完全可以绕过中心极限定理,而直接采用软件命令的方式对此题求解,这留给大家作为课后思考题.
这种编程化的思路,也许对以后的统计学习和建模来说是更值得尝试的.
例2.
32独立重复地测量n次某物体的长度.
设其长度真值为,各次测量结果XiN(,0.
2).
记X为n次测量的算术平均值,为保证有95%的把握使平均值与实际值之间的差异小于0.
1,问至少需要测量多少次解n次测量结果之间是独立同分布的,故由中心极限定理知近似地有XN,0.
2√n.
题意要求解得满足下列条件的n的最小值为:P(X0;0,其他求在最初使用的200h内,至少有一个元件损坏的概率(此题不得使用计算器或软件,结果保留无理数或分数形式).
10.
某产品的寿命X服从指数分布(单位:年),其平均寿命为4年.
生产该产品的厂家承诺,若产品在一年之内损坏,则可免费调换.
若厂家每售出一台可获利100元,而调换一台产品的成本为300元,试求每台设备的平均利润.
11.
某公务员岗位有10000人报考.
假定考生成绩服从正态分布,且已知90分以上有359人,60分以下有1151人.
最后按成绩从高到低依次录用2500人,试问被录用者中的最低分为多少12.
设随机变量XN(0,σ).
若P(|X|>k)=0.
1,试求P(X0);A+Barcsinxa,axt].
由条件概率的公式,有P[X∈(t,t+dt)|X>t]=P[X∈(t,t+dt),X>t]P(X>t)=P[X∈(t,t+dt)]P(X>t)≈f(t)dt1F(t)式中:P[X∈(t,t+dt),X>t]表示事件X∈(t,t+dt)与事件X>t同时发生的概率.
所以,所谓的危险率λ(t)实际上表示了"年龄"为t的元件不能再继续使用的条件概率强度(conditionalprobabilityintensity).
(1)由危险率函数的定义可知,从X的分布函数可计算得出其危险率.
实际上,反过来由X的危险率函数也可唯一地确定X的分布函数.
试证明这一点.
(2)现假设XExp(λ).
利用指数分布的无记忆性,可知对"年龄"为t的元件,其剩余的生存时间与新元件实际上是一样的.
因此,λ(t)必是一个常数.
试用公式证明这一点.
(3)人们经常听到这样的说法:某一年龄段上吸烟者的死亡率(deathrate)是非吸烟者的两倍.
实际上,这正是某一年龄段上吸烟者的危险率是非吸烟者的危险率的两倍的意思.
请问这是否意味着对同年龄的非吸烟者来说,他们能够活到某一给定年龄的概率是吸烟者活动该年龄的概率的两倍请具体说明理由.
(4)设对年龄为t(t40)的男性吸烟者而言,其患肺癌的危险率函数为λ(t)=0.
00025(t40)2+0.
027,t40假定一名40岁的男烟民现在并未患有肺癌.
利用前面的结果,分别求他能活到60岁和70岁的概率.
32.
本章内容中曾出现这样两幅图.
第一幅图为不同参数的二项分布概率质量图(图2.
9).
第二幅图为不同参数的指数分布密度函数图(图2.
10).
试用R绘制这两幅图形.
第2章随机变量79图2.
9绘制不同参数的二项分布的概率质量图图2.
10绘制不同均值的指数分布密度函数曲线
数脉科技(shuhost)8月促销:香港独立服务器,自营BGP、CN2+BGP、阿里云线路,新客立减400港币/月,老用户按照优惠码减免!香港服务器带宽可选10Mbps、30Mbps、50Mbps、100Mbps带宽,支持中文本Windows、Linux等系统。数脉香港特价阿里云10MbpsCN2,e3-1230v2,16G内存,1T HDD 或 240G SSD,10Mbps带宽,IPv41个,...
鲨鱼机房(Sharktech)我们也叫它SK机房,是一家成立于2003年的老牌国外主机商,提供的产品包括独立服务器租用、VPS主机等,自营机房在美国洛杉矶、丹佛、芝加哥和荷兰阿姆斯特丹等,主打高防产品,独立服务器免费提供60Gbps/48Mpps攻击防御。机房提供1-10Gbps带宽不限流量服务器,最低丹佛/荷兰机房每月49美元起,洛杉矶机房最低59美元/月起。下面列出部分促销机型的配置信息。机房...
轻云互联成立于2018年的国人商家,广州轻云互联网络科技有限公司旗下品牌,主要从事VPS、虚拟主机等云计算产品业务,适合建站、新手上车的值得选择,香港三网直连(电信CN2GIA联通移动CN2直连);美国圣何塞(回程三网CN2GIA)线路,所有产品均采用KVM虚拟技术架构,高效售后保障,稳定多年,高性能可用,网络优质,为您的业务保驾护航。活动规则:用户购买任意全区域云服务器月付以上享受免费更换IP服...
pr劫持为你推荐
最新qq空间代码qq空间都是有哪些免费代码!(要全部)不兼容Google play 服务提示不兼容怎么办?畅想中国未来的中国是什么样子的雅虎天盾高手进来看看我该怎么办 新装的ie8 内存使用率达到100%了lockdownd[求教]在淘宝买了张激活卡,请问怎么取消激活网络广告投放网络广告的投放目的是什么?怎么上传音乐怎么上传音乐到网上QzongQQ空间是Qzone还是Qzong网站排名靠前全国B2B网站排名靠前的有哪些网页打不开的原因网页打不开是什么原因?
厦门域名注册 域名备案只选云聚达 godaddy域名解析 budgetvm hawkhost koss win8升级win10正式版 网通ip 灵动鬼影 免费吧 美国在线代理服务器 天翼云盘 ca187 空间购买 免费外链相册 万网注册 攻击服务器 防盗链 cc加速器 神棍节 更多