抽取的这袋盐为1081g,落在此区间的外部,即小概率事件竟然在一次试验中发生了,所以我们有理由怀疑该生产线发生了故障,需要检修. 3.5统计假设检验中小概率原理的应用
数理统计中的假设检验方法在工厂、科研、医学等等许多领域中都有广泛的应用。其基本思想的根据就是小概率事件原则。这一基本思想是:假设某结论H0需要检验。我们先假定H0是正确的,在此假定下,某事件A的概率很小,经过一次检验,如果A发生了,即小概率事件A在一次实验中发生了,这与小概率事件原则违背,所以否定H0。反之,如果A不发生,则或者肯定H0,或者保留H0,留待经过几次实验后再作结论。统计假设检验就是针对所研究的问题,提出一个“命题”或曰“假设”,然后抽取样本,观察样本数据与所提出的假设的不一致程度,如果二者相差甚远,即二者差异已经达到“足够大”的程度,就说明原来提出的假设是不成立的。这种判断假设真伪的思路实际上就是我们要探讨的“小概率原理”。[18]
利用小概率原理来判断是否应该拒绝所提出的假设即原假设,主要在于判断所抽取的样本数据与原假设的差异是否足够大,对于二者差异大小的判断有两个表象不同但本质一致的尺度:统计量和概率.
统计量是由随机抽样所得的样本数据构造的函数,可以测度来自某总体的样本长远而稳定的信息,如样本均值、样本方差、样本比率等,以及在此基础上构造的t、?2、F等统计量。统计量是由样本数据构造的,而样本数据是随机抽取的,所以样本数据是不确定的、随机的,由其计算所得的统计量也就是随机的。而总体参数是确定但未知的,假设的命题即原假设中关于总体参数的假定是确定而且明确的,一般来讲二者是不一致的。造成样本统计量数值与假定的总体参数数值不一致的原因有两个:随机差异和条件差异。不同的原因产生的差异程度不同,一般情况下,随机差异经常存在,但差异程度不大,条件差异不一定存在,但一旦存在,造成的差异就会比较大。所以,统计量数值与假定总体参数数值差异较小时,不能判定原假设有错(注意不是说判定原假设
13
是对的),如果二者差异较大,说明除随机差异外还有其他原因造成的条件差异,即说明原来的假定存在问题,也就是说根据样本数据可以否定原假设。 但是直接根据统计量的数值与原假设中假定的总体参数的数值比较,很难断定差异的程度大小,比如推断某次学生考试的平均成绩,提出原假设:??80 。为了验证该假设是否确实,随机抽取36名学生的考试成绩,计算的平均成绩为70分,二者相差10分,这10分的差异算不算大呢?这就需要借助概率来分析.[19]
在正常条件下,即原假设成立的前提下,样本统计量与总体参数之间的差异比较小,即该差异较小的概率较大,而该差异较大的概率很小,也就是说在一次试验中,样本统计量与假定的总体参数的差异如果较大,则说明产生差异的原因不只是随机因素,应该还有其他原因。但这种判断不是绝对正确,有可能是错误的。犯这种错误的可能性大小取决于事先规定的小概率事件“小”的程度。这种判断小概率的标准就是统计假设检验中所谓的显著性水平。这种显著性水平就为我们判定差异的大小提供了标准。这样就产生了判断差异大小的第二个尺度——概率。如果在原假设成立的前提下计算的出现样本数据的概率(即统计检验中所谓的P值)小于所规定的显著性水平(一般用?表示),即
P??,表明在原假设成立的前提下,出现样本这种情况的的可能性很小,产生
差异的原因不只是随机误差,应该还存在其他条件差异,说明原假设不正确,即我们有足够的证据否定原假设。如果P??,表明在原假设成立的前提下,出现样本这种情况是很正常的,二者的差异仅仅是由于随机原因产生的,样本数据不足以否定原假设,我们不能说原假设是错的。在实际抽样中,我们抽到的是对客观现象度量的客观数据,如上例所说的考试分数,或者其他的如重量(千克)、距离(cm)等等,并不是概率。为了将观察到的数据即统计量的数值转换成能够判断差异大小的概率,需要将其标准化,如上例学生考试的成绩,我们假定总体平均成绩为80分,而抽样的样本平均成绩为70分,二者相差10分,如果原假设是正确的,那么样本均值离开总体均值达到10分及10以上差距的概率多大呢?为求其概率,我们首先要将该差异标准化,即:
14
z????0?n
其中,?为样本均值,即??70:?0为假定的总体均值,即?0?80:n为样本容量,即n?36:?为总体数据的标准差,若 ? 未知时可用样本标准差 s 替代。如果假设s?30,则:
z????0?n?70?80?2
3036由抽样分布的知识可知z为服从标准正太分布的统计量,即z~N(0,?2n),由此可知:
P{z?2}?P(z?2)?P(z??2)?1?95.45%?4.55%[20]
上式表明,样本均值离开总体均值的距离达到或超过10分的概率仅为4.55%,也就是说如果总体均值确实是80分的话,我们重复抽取100个样本,仅有4到5个样本的均值会达到相差10分的程度。如果我们规定5%为小概率的标准,那么4.55%就为小概率,据此我们就可以说如果原假设正确,即总体均值确实为80分,出现这样的样本是小概率事件,在一次抽样中是不应该出现的,但现实是我们确实抽到了这样的样本,在此情况下,我们是相信原先的假定呢,还是相信眼前的事实呢?很显然我们只能相信事实,即认为原先的假定是不成立的,理所当然做出否定原假设的结论。[21]
3.6小概率事件原理在林火预报中的应用
林火预报方法选择是进行林火预测预报的关键,全世界共有100多种,我国也有十多种。在森林防火工作中不确定的随机现象广泛存在。一些不能准确预测未来或尚未发生的事件,例如防火戒严期及防火期的规定,野外用火许可证能否发放等事件,这类事件充满了不确定性。我们可以利用火灾历史资料,通过统计学方法来找出林火发生发展规律,这是林火预报方法中最简单的一种研究方法。
15
这种方法只需对过去林火发生的天气条件、地区、时间、次数、火因、火烧面积等进行统计分析,根据不同因素之间的相关性,利用概率计算,得到一个对应事件的概率,利用小概率原理对林火发生的可能性进行预估检验,验证工作的可行性及正确性,对森林防火工作提出防控措施。虽然这种方法比较简单, 但解决问题具有高效性、简捷性和实用性。
例7根据历史资料,某林区平均每年发生12次林火,而且12次林火都发生在3、4月份,而不发生在6月。预火期或戒严期定为3、4月,问在6、7、8月份结束防火期是否合理?[22]
A假设:火灾每月都发生,排列为1212.火灾仅发生在3、4月份,排列
212为2。火灾发生在3、4月份的概率P(A)?12?4.6?10?10。
1212根据小概率原理,推翻原假设,防火戒严期应该定在3、4月份
B假设:火灾每月都发生,排列为1212。火灾不发生在6、7、8月份,
只发生在其余9个月,排列为912。火灾不发生6、7、8月份的概率
912P(B)?12?0.032。
12根据小概率原理,原定假设为错误并推翻,结论为不应该在6、7、8月份结束防火期。
例8 根据历史资料,在3月份发生火灾95%是由烧荒引起,而3月12日火灾发生概率为0.07,现有人申请用火许可证,问能否发放?
解:假设烧火事件为A
AAP()?0.95 P()?0.05 BB假设发生火灾事件为B
P(B)?0.07 P(B)?0.93
16

