为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

概率统计补充案例

2021-10-15 3页 doc 1MB 18阅读

用户头像 个人认证

dczly68

从事多年财务会计,税务工作的经验

举报
概率统计补充案例----word.zl-补充案例:概率局部:案例1、“三人行必有我师焉〞案例2、抓阄问题案例3、贝叶斯方法运用案例介绍案例4、化验呈阳性者是否患病案例5、敏感性问题的调查案例6、泊松分布在企业评先进中的应用案例7、碰运气能否通过英语四级考试案例8、检验方案确实定问题案例9、风险型决策模型案例10、一种很迷惑游客的赌博游戏案例11、标准分及其应用案例12、正态分布在人才招聘中的应用案例13、预测录取分数线和考生考试名统计局部:案例14、随机变量函数的均值和标准差的近似计算方法案例15、如何表示考试成绩比拟合理案例16、HYPE...
概率统计补充案例
----word.zl-补充案例:概率局部:案例1、“三人行必有我师焉〞案例2、抓阄问案例3、贝叶斯运用案例介绍案例4、化验呈阳性者是否患病案例5、敏感性问题的调查案例6、泊松分布在企业评先进中的应用案例7、碰运气能否通过英语四级考试案例8、检验确实定问题案例9、风险型决策模型案例10、一种很迷惑游客的赌博游戏案例11、标准分及其应用案例12、正态分布在人才招聘中的应用案例13、预测录取分数线和考生考试名统计局部:案例14、随机变量函数的均值和标准差的近似计算方法案例15、如何表示考试成绩比拟合理案例16、HYPERLINK"202.198.176.19/jpk/gljpk/v/UploadFile/20071016163116643.doc"\t"_blank"如何估计湖中黑、白鱼的比例HYPERLINK"202.198.176.19/jpk/gljpk/v/UploadFile/20071016163124329.doc"\t"_blank"案例17、预测水稻总产量案例18、工程师的建议是否应采纳案例19、母亲嗜酒是否影响下—代的安康案例20、银行经理的方案是否有效案例21、一元线性回归分析的Excel实现案例22、方差分析的Excel实现案例23、预测分数案例24、两次地震间的间隔时间服从指数分布案例1、“三人行必有我师焉〞我们可以运用概率知识解释孔子的名言“三人行必有我师焉〞.首先我们要明确一个问题,即只要在某一方面领先就可以为师(愈说“术业有专攻〞).俗语说“三百六十行,行行出状元〞,我们不妨把一个人的才能分成360个方面。孔子是个大圣人,我们假设他在一个方面超过某个人的概率为99%,那么孔子在这方面超过与他“同行〞的两个人的概率为99%×99%=98.0l%,在360个方面孔子总比这两人强的概率为(98.01%)360=0.07%,即这两个人在某一方面可以做孔子教师的概率为99.93%.从数学角度分析,孔子的话是很有道理的.案例2、抓阄问题一项耐力比赛胜出的10人中有1人可以获得一次旅游的时机,组织者决定以抓阄的方式分配这一名额.采取一组10人抓阄,10阄中只有一写“有〞.每个人都想争取到这次时机,你希望自己是第几个抓阄者呢?有人说要先抓,否那么写有“有〞的阄被别人抓到,自己就没有时机了;有人说不急于先抓,如果前面的人没有抓到写有“有〞的阄,这时再抓抓到“有〞的时机会大一些.为了统一认识,用概率的方法构造一个摸球模型来说明问题.摸球模型:袋中装有1个红球和9个黄球除颜色不同外球的大小、形状、质量都一样.现在10人依次摸球(不放回),求红球被第个人摸到的概率(=1,2,⋯,10).解决问题:设=“第个人摸到红球,=1,2,⋯,10.显然,红球被第一个人摸到的概率为.因为,于是红球被第二个人摸到的概率为.同样,由知红球被第三个人摸到的概率为.如此继续,类似可得=.  由此可见,其结果与无关,说明10个人无论摸球顺序如何,每个人摸到红球的时机相等.这也说明10个人抓阄,只要每个人在抓之前不知道他前边那些已经抓完的结果,无论先后,抓到的时机是均等的.在现实生活中单位分房、学生分班、短缺物品的分配等,人们常常乐于用抓阄的方法来解决,其合理性保证当然得归功于“概率〞.通过上面的摸球模型,我们总结出分配中的“抓阄〞问题,无论先抓后抓,结果是一样的.学完概率之后再遇到抓阄问题时不必争先恐后,我们要发扬风格让他人先抓.案例3、贝叶斯方法运用案例介绍什么是贝叶斯过滤器?垃圾是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾的技术难度非常大。传统的垃圾过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者那么是计算文本的校验码,再与的垃圾进展比照。它们的识别效果都不理想,而且很容易躲避。2002年,PaulGraham提出使用"贝叶斯推断"过滤垃圾。他说,这样做的效果,好得不可思议。1000封垃圾可以过滤掉995封,且没有一个误判。另外,这种过滤器还具有自我学习的功能,会根据新收到的,不断调整。收到的垃圾越多,它的准确率就越高。建立历史资料库贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所以,我们必须预先提供两组已经识别好的,一组是正常,另一组是垃圾。我们用这两组,对过滤器进展"训练"。这两组的规模越大,训练效果就越好。PaulGraham使用的规模,是正常和垃圾各4000封。"训练"过程很简单。首先,解析所有,提取每一个词。然后,计算每个词语在正常和垃圾中的出现频率。比方,我们假定"sex"这个词,在4000封垃圾中,有200封包含这个词,那么它的出现频率就是5%;而在4000封正常中,只有2封包含这个词,那么出现频率就是0.05%。〔【注释】如果某个词只出现在垃圾中,PaulGraham就假定,它在正常的出现频率是1%,反之亦然。随着数量的增加,计算结果会自动调整。〕有了这个初步的统计结果,过滤器就可以投入使用了。贝叶斯过滤器的使用过程现在,我们收到了一封新。在未经统计分析之前,我们假定它是垃圾的概率为50%。〔【注释】有研究说明,用户收到的电子中,80%是垃圾。但是,这里仍然假定垃圾的"先验概率"为50%。〕我们用S表示垃圾〔spam〕,H表示正常〔healthy〕。因此,P(S)和P(H)的先验概率,都是50%。然后,对这封进展解析,发现其中包含了sex这个词,请问这封属于垃圾的概率有多高?我们用W表示"sex"这个词,那么问题就变成了如何计算P(S|W)的值,即在某个词语〔W〕已经存在的条件下,垃圾〔S〕的概率有多大。根据条件概率公式,马上可以写出 公式中,P(W|S)和P(W|H)的含义是,这个词语在垃圾和正常中,分别出现的概率。这两个值可以从历史资料库中得到,对sex这个词来说,上文假定它们分别等于5%和0.05%。另外,P(S)和P(H)的值,前面说过都等于50%。所以,马上可以计算P(S|W)的值:因此,这封新是垃圾的概率等于99%。这说明,sex这个词的推断能力很强,将50%的"先验概率"一下子提高到了99%的"后验概率"。联合概率的计算做完上面一步,请问我们能否得出结论,这封新就是垃圾?答复是不能。因为一封包含很多词语,一些词语〔比方sex〕说这是垃圾,另一些说这不是。你怎么知道以哪个词为准?PaulGraham的做法是,选出这封信中P(S|W)最高的15个词,计算它们的联合概率。〔【注释】如果有的词是第一次出现,无法计算P(S|W),PaulGraham就假定这个值等于0.4。因为垃圾用的往往都是某些固定的词语,所以如果你从来没见过某个词,它多半是一个正常的词。〕所谓联合概率,就是指在多个事件发生的情况下,另一个事件发生概率有多大。比方,W1和W2是两个不同的词语,它们都出现在某封电子之中,那么这封是垃圾的概率,就是联合概率。在W1和W2的情况下,无非就是两种结果:垃圾〔事件E1〕或正常〔事件E2〕。 其中,W1、W2和垃圾的概率分别如下: 如果假定所有事件都是独立事件〔【注释】严格地说,这个假定不成立,但是这里可以忽略〕,那么就可以计算P(E1)和P(E2):又由于在W1和W2已经发生的情况下,垃圾的概率等于下面的式子:即将P(S)等于0.5代入,得到将P(S|W1)记为P1,P(S|W2)记为P2,公式就变成 这就是联合概率的计算公式。 最终的计算公式将上面的公式扩展到15个词的情况,就得到了最终的概率计算公式:一封是不是垃圾,就用这个式子进展计算。这时我们还需要一个用于比拟的门槛值。PaulGraham的门槛值是0.9,概率大于0.9,表示15个词联合认定,这封有90%以上的可能属于垃圾;概率小于0.9,就表示是正常。有了这个公式以后,一封正常的信件即使出现sex这个词,也不会被认定为垃圾了。案例4、化验呈阳性者是否患病在医疗中经常通过化验来诊断。当某人做癌症检查结果呈阳性时,他就患癌症了?其实不然。假设某一地区患有癌症的人占0.005,患者对一种试验反响是阳性的概率为0.95,正常人对这种试验反响是阳性的概率为0.04,现抽查了一个人,试验反响是阳性,问此人是癌症患者的概率有多大?设C={抽查的人患有癌症},A={试验结果是阳性},那么表示“抽查的人不患癌症〞。,,,。由贝叶斯公式,可得代入数据计算得:P(C|A)=0.1066。在以上假设下,做癌症检查结果呈阳性的人确患癌症的概率为仅为0.1066,平均来说,1000个人约只有107人确患癌症。这是不是意味着这种试验对于诊断一个人是否患有癌症没有意义呢?不是!如果不做试验,一人是患者的概率为0.005。假设试验后得阳性反响,那么此人是患者的概率为0.1066,从0.005增加到0.1066,将近增加约21倍,说明这种试验对于诊断一个人是否患有癌症有意义。案例5、敏感性问题的调查学生阅读不安康书刊或录像会严重影响学生的身心安康.但这些都是避着家长和教师进展的,属个人隐私行为.我们如何设计一种调查方案,能够估计出大学生中看过不安康书刊或录像的人数的比率呢?对这种敏感性问题的调查,被调查者会有一种顾虑,害怕调查者不能很好的保守秘密.如果被调查者不愿意真实答复下列问题,将使调查数据失真,这样的统计结果将没有意义.因此巧妙设计调查方案是获得真实数据的关键.经过多年的研究和实践,一些统计学家和心理学家创造了一种能消除人们抵触情绪的“随机化应答〞方法.被调查者只需答复两个问题之一,而且只需答复“是〞或“否〞,设计的问题如下:问题A:你的生日是否在7月1日之前?问题B:你是否看过不安康书刊?被调查者在没有外人的情况下,从一个装有黑球和白球的箱子中随机抽取一个球,看过颜色后又放回.假设抽出白球那么答复下列问题A;假设抽出黑球那么答复下列问题B.箱中黑球所占比率是的,即,.被调查者无论答复A或B,都只需在一只有“是〞、“否〞两个选项的答案上做出选择,然后投入密封的投票箱.上述抽球和答卷都在无人的情况下进展,这样就可以消除被调查者的顾虑,从而可以保证答卷的真实可靠性.翻开投票箱进展统计,设共有有效答卷,其中选择“是〞,那么可用频率估计答复“是〞的概率为:.答复“是〞有两种情况:一种是摸到白球后对问题A答复“是〞,也就是被调查者“生日在7月1日之前〞的概率,一般认为这个概率是0.5,即;另一种是摸到黑球后对问题B答复“是〞,这个条件概率就是看不安康书刊的学生在参加调查的学生中的比率,即.利用全概率公式得,即.由此可获得.假设在一次实际调查中,箱子中共有50个球,其中30个是黑球,20个白球,那么.调查完毕时共收到1583有效答卷,其中有389答复“是〞,据此可估算出.这说明1583名学生中,约%的学生看过不安康书刊.案例6、泊松分布在企业评先进中的应用某工业系统在进展平安管理评选时,有两家企业在其它方面得分相等,难分高低。只剩下千人事故率这个指标,甲企业有2000人,发生事故率为0.005,即发生事故10起。乙企业有1000人,发生事故率也为0.005,即发生事故5起。那么,应该评选谁为先进企业呢?显然,按事故数来评,那么应评乙企业为先进。但甲企业不服。因为甲企业的事故数虽然是乙企业的2倍。但甲企业的人数正好是乙企业的2倍。按事故率来评,两企业应榜上有名。由于指标限制,只能评出一家企业,终究评谁好呢?可用泊松〔Poisson〕分布来解决这个问题。统计资料说明:平安管理中的事故次数、负伤人数是服从泊松分布的。服从泊松分布的随机变量取值的概率为:其中〔为人数,为平均事故概率〕事件发生了至少次的概率为假设,上式成为必然事件。假设两厂均不发生事故得总分值10分。两厂的均值分别为10与5,那么两厂发生事故的概率为两厂的得分为查泊松分布表,得两厂的得分表事故次数012345678910得分甲厂1010109.979.99.719.338.77.806.675.42得分乙厂109.939.608.757.345.603.842.371.330.680.32由表可得,甲企业发生10起事故时得5.42分,乙企业发生5起事故得5.60分。故应评选乙企业为先进。案例7、碰运气能否通过英语四级考试大学英语四级考试是全面检验大学生英语水平的一种综合考试,具有一定难度.这种考试包括听力、语法构造、阅读理解、写作等.除写作占15分外,其余85道为单项选择题,每道题附有A、B、C、D四个选项.这种考试方法使个别学生产生碰运气和幸运心理.那么,靠运气能通过英语四级考试吗?答案是否认的.下面我们计算靠运气通过英语四级考试的概率有多大.假定不考虑写作所占的15分,假设按及格为60分计算,那么85道选择题必须要答对51道题以上才行,这可以看成是85重伯努利试验.设随机变量表示答对的题数,那么,其分布律为:假设要及格,必须,其概率为此概率非常之小,故可认为靠运气通过英语四级考试几乎是不可能发生的事件,它相当于在1000亿个碰运气的考生中,只有0.874个人可以通过考试.然而,我们地球上只有60多亿人口.案例8、检验方案确实定问题在某地区为了进展某种疾病普查,需要检验N个人的血液,可用两种方法进展,方法〔一〕:对每个人的血液逐个检验,这时需要检验N次;方法〔二〕:将N个检验者分组,每组k个人,把一组的k个人抽出的血液混合在一起进展一次检验,如果检验结果为阴性,那么说明这k个人的血液均为阴性,这时这k个人总共检验了一次;如果检验结果为阳性,为了明确这k个人中哪些人为阳性,就要对这k个人再逐个进展检验,这时这k个人总共进展了1+k次检验.假设每个人的检验结果是否为阳性是独立的,且每个人为阴性的概率为q.问哪种检验方法检验次数少些?对方法〔二〕,设每个人所需检验次数是一个随机变量X,那么X的分布律为那么,N个人平均需要检验的次数为由此可知,适中选择k,使得,即当时,那么N个人的平均需要检验的次数小于N,这时方法〔二〕比方法〔一〕检验次数少.如果q,还可以根据选出使其最小的整数,从而使得检验次数最少.比方,假设需检验1000人,且,那么,按方法〔二〕平均只需进展检验次,这样可以减少约40%的工作量,为检验工作节约大量的人力、物力、财力.案例9、风险型决策模型决策是人们在政治、经济、军事和日常生活等多方面普遍存在的一种选择方案的行为.风险型决策是指在作出决策时,由于某些随机性的因素影响,决策因存在一定的风险,称为风险型决策.某渔船要对下个月是否出海打鱼作出决策.如果出海后是好天,可获收益5000元,假设出海后天气变坏,将损失2000元;假设不出海,无论天气好坏都要承当1000元损失费.据预测下月好天的概率为0.6,天气变坏的概率为0.4,应如何选择最正确方案?我们将出海的收益作为随机变量,其概率分布如下:故的数学期望为〔元〕显然出海的收益比不出海的收益好.案例10、一种很迷惑游客的赌博游戏在一个游客很多的旅游圣地,发现一类赌博游戏。形式是这样的:摊主〔以下称赌主〕拿着一个装有20个同样大小的玻璃球的小袋,玻璃球共有红、黄、蓝、白、黑5种颜色,每种颜色均为4个球。让游客〔以下称赌客〕从袋中任意摸出10个球。如摸到红球4个,黄球4个,白球2个,那么数字排列为442〔数字大者排前,小者排后〕,以摸到各种球组成的数字定输赢,其规定如下数:不同球色数字排列442433441142224311133312222243214221133223321132221输赢金额〔元〕+10+5+5+2+2+2+1+1+0.5+0.5-2-2.5其中“+〞表示赌客赢,“-〞表示赌客输。如摸到球色数字排列为442,那么赌客赢10元。外表上看12中可能只有2中可能赌客输钱,似乎赌客赢钱的可能性大。也正是如此,很能吸引过往的旅客参赌。最后结果如何?假设每天有100人参赌,那么赌主每天能赢100来元。下面具体计算。  用表示摸到某球色数字排列的概率。由古典概率公式可得如下概率分布表〔可能取法总数〕球色数字排列种类组合种数概率输赢金额0.0010+100.0026+50.0026+50.0234+20.0277+20.0277+20.0421+10.0642+10.0935+0.50.0935+0.50.2494-20.3741-2.5由上表可得  赌客赢钱概率          赌客输钱概率   当摸的次数很多时,赌主赢钱几乎是必然的。设随机变量为赌客每赌一次输赢的金额,那么其数学期望为:  从整体上看赌客每赌一次平均输1.04元。如果每天有100人参赌,那么赌主每天平均进帐104元。案例11、标准分及其应用原始分数不利于各科水平的横向比拟和考试的评价分析.一是其位置含义不明确.原始分数是75分,这个分数是高还是低?该考生在全体考生中的位置靠前还是靠后?单从这个分数看不出来,因为没有一个稳定的参照点.二是不可比.原始分数往往受试题难度和区分度大小的影响,具有不稳定性.题目难,原始分数就偏低;试题容易,分数就偏高,从而导致了原始分数之间的不可比性.三是不可加.各科原始分数、位置标准不一致,不可直接累加后比拟,就像我们不能将甲乙两人口袋里的美元与港币数直接相加来比拟哪个钱多一样.所以,在评价学生学业水平时,为了可比性,比拟一学生几门课的情况、两个学生多科的总成绩等,可将卷面分转化为标准分来比拟.对一门课,比拟标准分的大小;对多门课,比拟标准分总和.标准分就是分数这个随机变量的标准化:.由于标准分数分值小,并带有小数和负值,在许多情形下直接使用不大符合人们的习惯,故通常根据具体情况,把标准分数通过线性变换化为各种导出分数.常见的有:①教育与心理测验中的分数:T=50+10Z②韦氏智力量表中各分测验的量表分:T=10+3Z③韦氏智力量表智商〔离差智商〕:IQ=100+15Z④美国大学入学考试委员会使用的标准分数:CEEB=500+100Z⑤美国教育测验中心举办“托福〞考试:TOEFL=500+70Z⑥我国出国人员英语水平考试即EPT所使用的分数:EPT=90+20Z⑦五等级分数:由标准分的值按表4来分段确定等级。按此方式,40人的班,每次考试,不管原始分数如何,大约有3人〔占7%〕不及格。美国不少大学采用这种“竞争〞的评分方式。表4标准分与五等级划分标准分等级不及格及格中等良好优秀比例7%24%38%24%7%案例12、正态分布在人才招聘中的应用某公司准备通过考试招工300名。其中280名正式工,20名临时工.实际报考人数为1657名.考试总分值400分。考试不久后,通过当地新闻媒体得到如下消息:考试平均成绩是166分,360分以上的高分考生31名.某考生A的成绩为256分.问他能否被录取?假设被录取,能否是正式工?我们用正态分布来解决这个问题.先预测最低录取分数线,记最低录取分数为。设考生成绩为X,对一次成功的考试来说,X应服从正态分布,即,从而由题设知于是。查正态分布表,得,从而。因此.因为最低录取分数线确实定,应使高于此线的考生的频率等于,即于是.即最低录取分数线是251分.下面预测考生A的名次,其考分256=.故,此表示成绩高于考生A的人数约占总人数的16.9%.由知考生A大约排在283名.因为该考生的成绩是256分,大于录取分数限251分,因此该考生A能被录取.但他的排名是283,排在280名之后,所以他不能被录取为正式工,只能是临时工。案例13、预测录取分数线和考生考试名次当今社会,考试作为一种选拔人才的有效途径,正被广泛采用.每次考试过后,考生最关心的两个问题是:自己能否到达最低录取分数线?自己的考试名次如何?其实,学了概率之后我们可以通过二项分布来解决这些问题.招工问题:某公司通过招聘考试,准备招工300名〔其中280名正式工,20名临时工〕,而报考的人数是1657名,考试总分值为400分.考试后不久,通过当地新闻媒介得到如下信息:考试总评成绩是166分,360分以上的高分考生31名.某考生A的成绩是256分,问他能否被录取?如被录取能否是正式工?解决问题:先来预测一下最低录取分数线,记该最低分数线为.设考生考试成绩为,那么是随机变量,对于一次成功的考试来说,应服从正态分布.此题中,,那么.因为考试成绩高于360分的频率是,所以.于是,查正态分布表知,,即.所以.因为最低录取分数线有确定应使高于此线的考生的频率等于,即,所以.查正态分布表,得,求得.即最低录取分数线是251.下面预测考生A的考试名次.他的考分x=256,查正态分布表知,.这说明,考试成绩高于256分的频率是0.166,也就是说成绩高于考生A的人数大约占总人数的16.6%.所以,考试名次排在A之前的人大约有〔名〕,即考生A大约排在第276名.从以上分析得出:最低录取分数线为251分,低于考生A的分数,所以,考生A能被录取.但因其考试名次大约是276名,排在280名之前,所以,有可能被录取为正式工.案例14、随机变量函数的均值和标准差的近似计算方法在工程上,随机变量的均值和标准差,求随机变量函数的均值和标准差的近似方法主要有泰勒展开式、变异系数法、根本函数法.例1设、的均值、标准差分别为.找出函数均值、标准差的近似计算公式.对在附近进展线性逼近:所以,而.例2设、的均值、标准差分别为。找出函数均值、标准差的近似计算公式.对在附近进展线性逼近:所以,,即.案例15、如何表示考试成绩比拟合理——TOEFEL成绩是如何计算出来的考试成绩是考生水平的反映,考试成绩的合理表示不但能反映考生的实际水平,而且还应该尽量减少因题目难易程度对考试成绩的影响。目前,我国普遍采用百分制记分法、即总分值设计为100分,考生在这100分中所得分数即为他们的成绩。这种记分法的主要缺点是分数受题目难易程度的影响很大,假设考题容易,很可能大局部考生成绩都在80分以上,这样80分未必是好成绩。从这个角度看,百分制不能完全反映考生实际水平的上下.采用排名次的方法,或者称为秩方法,对于评定考生间的相对成绩不失为一个好方法。该方法将考生的成绩由低到高排列,考生所排位置成为该考生的秩,成绩越好的考生秩越大(注意这与我们通常的考生的排名正好相反),而一样成绩的考生的秩规定为这几个考生在他们应排位置上的平均数.例如,某6位考生的考试成绩的百分制和秩方法有如下关系:百分制908070706560秩653.53.521其中两位考生的成绩一样,他们应排在3,4的位置上,从而他们的秩同为(3+4)/2=3.5。秩方法也有其缺乏之处,由于秩的大小与考生人数有关,1000人中的第三和10人中的第三是难以比拟的.为了克制百分制和秩方法的缺乏,可以将百分制分数或秩改换为百分位.某考生的百分位是假定有l00人参加考试时,成绩等于或小于该考生成绩的人数.假设有4人参考,考生成绩的百分制及百分位有如下关系:百分制67789095秩l234百分位255075100又如,假设有50人参考,某位考生的成绩是第11名,倒数是第40名,那么他的百分位为80,也就是说,有80%同学的成绩不如他或和他持平。百分制是将总分值定位100,而百分位是将考生中的最好成绩定位100.具体算法为:百分位也有其缺乏之处,就是不能根据百分位确定原来的考试得分。一种比拟合理因而也是国际上较通用的记分方法就是标准分方法;一个考生的标准分等于一个考生的考试得分见减去全体考生得分的平均值再除以所有考生的得分的标准查(样本方差开方),即正的标准分表示该考生的成绩高于平均分,负的标准分表示该考生的成绩低于平均分,且在一般情况下,根据中心极限定理,标准分可认为服从正态分布,这样标准分不仅与考试的原始得分相对应,而且可有标准正态分布表。确定出某标准分下的相应的百分位(即标准分小于或等于所给定标准分的概率乘100),由标准正态分布表可得百分位与标准分的对应关系如下表:百分位0l2345678900-2.33-2.05-1.88-1.75-1.64-1.56-1.48-1.41-1.3410-1.28-1.23-1.17-1.13-1.08-1.04-0.99-0.95-0.92-0.8820-0.84-0.81-0.77-0.74-0.71-0.67-0.64-0.61-0.58-0.5530-0.52-0.50-0.47-0.44-0.41-0.39-0.36-0.33-031-0.2840-0.25-0.23-0.20-0.18-0.15-0.13-0.10-0.08-0.05-0.03500.000.030.050.080.100.130.150180.200.23600.250.280.3l0.330.360.390.4l0.440.470.50700.520.550.580.6l0.640.670.710.740.770.8l800.840,880.920.950.991.041.081.131.171.2390l281.341.411.481.561.641.751.882,052.33例如,百分位-50,那么标准分一0;百分位=95,那么标准分—1.64.反之假设标准分为0.5,那么百分位—69,等等.TOEFEL自考试成绩采用标准分记分法.只是为了消除标准分中的两位小数,给标准分乘上100,另外又为了消除负号,再加上500,即TOEFEL:-h=100×标准分+500由TOEFEL分结台上表可以看出,考TOKFEL得500分并不难。因为它只相当于所有考生的平均分,考600分以上的人(此时标准分≥1)占全体考生人数的l5%,而得664分以上得人数只占全体考生得5%.因此能考664分自然是很不容易的。案例16、HYPERLINK"202.198.176.19/jpk/gljpk/v/UploadFile/20071016163116643.doc"\t"_blank"如何估计湖中黑、白鱼的比例某水产养殖场两年前在人工湖混养了黑白两种鱼.现在需要对黑白鱼数目的比例进展估计.设湖中有黑鱼条,那么白鱼数为,其中为待估计参数.从湖中任捕一条鱼,记那么,.为了使抽取的样本为简单随机样本,我们从湖中有放回的捕鱼条.〔即任捕一条,记下其颜色后放回湖中.任其自由游动,稍后再捕第二条,重复前一过程〕得样本.显然诸相互独立,且均与同分布.设在这次抽样中,捕得条黑鱼.下面用用矩法和极大似然估计法估计.〔1〕矩估计法.令可求得.由具体抽样结果知,的观测值,故的矩估计值为.〔2〕极大似然估计.由于每个的分布为:设为相应抽样结果〔样本观测值〕,那么似然函数为:令可求得的极大似然估计值为对此题而言,两种方法所得估计结果一样.此题是一个十分广泛的估计比例的统计模型.HYPERLINK"202.198.176.19/jpk/gljpk/v/UploadFile/20071016163124329.doc"\t"_blank"案例17、预测水稻总产量某县多年来一直种植水稻,并沿用传统的耕作方法,平均亩产600千克.今年换了新的稻种,耕作方法也作了改良.收获前,为了预测产量上下,先抽查了具有一定代表性的30亩水稻的产量,平均亩产642.5千克,标准差为160千克.如何预测总产量?要预测总产量,只要预测平均亩产量.只要算出平均亩产量的置信区间,那么下限与种植面积的乘积就是对总产量的最保守估计,上限与种植面积的乘积就是对总产量最乐观估计.设水稻亩产量为一随机变量,由于它受众多随机因素的影响,故可设.根据正态分布关于均值的区间估计,在方差时,的置信度为95%的置信区间为:用代替,将代入,有故得的置信度为95%的置信区间为:[585.25,699.75].所以,最保守的估计为亩产585.25千克,比往年略低;最乐观的估计为亩产可能到达700千克,比往年高出100千克.因上下差距太大,影响预测的准确.要解决这个问题,可再抽查70亩,即前后共抽样100亩.假设设,那么的95%的置信区间为:即[611.1,673.9].置信下限比以往年亩产多11.1千克.这就可以预测:在很大程度上,今年水稻平均亩产至少比往年高出11千克,当然这是最保守的估计.案例18、工程师的建议是否应采纳某机械厂工程师建议厂长采用新工艺加工齿轮可节省开销。他用新工艺做了9个星期的试验。在保证齿轮质量和数量的同时,使每台机器平均每周开支由原来的100元降到了75元。假定每台机器采用新、老工艺每周运转开支都服从正态分布。在的水平下。检验新工艺能否节省开支。  我们把开支不能节省与开支能节省分别作为零假设与备那么假设,即在为真时,检验统计量拒绝域为       将  代入的观察值落在拒绝域。故应拒绝。即认为新工艺能显著节省开支。所以工程师的建议应该被采纳。〔注〕为什么要把“开支不节省〞即作为零假设而不把作为零假设?这是因为工程师建议采用新工艺是一件大事。如果没有较可靠的证据说明这样做有益,那么不宜采纳。把“开支不节省〞作为零假设便能表达这一点。因为检验水平为0.01,当零假设正确开支不节省,因而不宜采纳工程师建议时,犯错误〔即采纳工程师建议〕的可能性只有0.01,这个概率很小。案例19、母亲嗜酒是否影响下—代的安康美国的jones医生于1974年观察了母亲在妊娠时曾患慢性酒精中毒的6名七岁儿童(称为甲组)以母亲的年龄,文化程度及婚姻状况与前6名儿童的母亲一样或相近,但不饮酒的46名七岁儿童为对照组(称为乙组).测定两组儿童的智商,结果如下:组别智商人数n智商平均数样本标准差甲组67819乙组469916由此结果推断母亲嗜酒是否影响下一代的智力假设有影响推断已影响的程度有多大?智商一般受诸多因素的影响从而可以假定两组儿童的智商服从正态分布和本问题实际是检验甲组总体的均值是否比乙组总体的均值偏小?假设是,这个差异围有多大?前一问题属假设检验,后一问题属区间估计。由于两个总体的方差未知,而甲组的样本容量较小。因此采用大样本下两总体均值比拟的U-检验法似乎不妥.故采用方差相等(但未知)时。两正态总体均值比拟的t-检验法对第一个问题作出答复。为此,利用样本先检验两总体方差是否相等,即检验假设当为真时,统计统计量拒绝域为或,取的观察值,得未落在拒绝域,故承受,即认为两总体方差相等下面用t-检验法检验是否比显著偏小?即检验假设当为真时,检验统计量其中,取将代入得T的观察值落在拒绝域,故拒绝.即认为母亲嗜酒会对儿童智力发育产生不良影响.下面继续考察这种不良影响的程度。为此要对两总体均值差进展区间估计.的置信度为的置信区间为取,并代入相应数据可得于是置信度为99%的置信区间为。99-78±16.32×2.67×=21土1891=(2.09,39.91)由此可断言:在99%的置信度下。嗜酒母亲所生孩子在七岁时自己智商比不饮酒的母亲所生孩子在七岁时的智商平均低2.09到39.91〔注〕读者可能已注意到。在解决问题过程中。两次假设检验所取的显著性水平不同.在检验方差相等时,取;在检验均值是否相等时取。前者远比后者大。为什么要这样取呢?因为检验的结果与检验的显著性水平有关。取得小。那么拒绝域也会小。产生的后果使零假设难以被拒绝。因此,限制显著性水平的原那么表达了“保护零假设〞的原那么在较大时,假设能承受,说明为真的依据很充足:同理,在很小时.我们仍然拒绝说明不真的理由就更充足。在本例中,对,仍得出可被承受及对,可被拒绝的结论,说明在所给数据下,得出相应的结论有很充足的理由。另外在区间估计中,取较小的置信水平(即较大的置信度),从而使得区间估计的围较大。假设反之,取较大的置信水平.那么可减少估计区间的长度,使区间估计分准确。但相应地区间估计的可靠度要是降低了,那么要冒更大的风险案例20、银行经理的方案是否有效某银行经理认为现在的储蓄有点片面的强调顾客的存款数而对顾客取款缺乏一些鼓励措施。为此,他设计了一种将存款数与存款期限相乘的指数,然后在不太影响银行效益的前提下设计了一些有吸引力的存款有奖措施已尽量减少顾客的取款数。为了比拟此方案的有效性,随机地选择了该银行的15位储户,得到他们在新方案实施前后的指数,结果见下表储户方案实施前①方案实施后②差〔②-①〕1100201054052027207806039105945334841062157351153905396257644014673272781008205105812011124584479847959112106583744459111460249823801284528831379131826484661467406969229152738240830对检验该经理的方案是否有效。  对本检验问题,采用成对数据的比拟方法较好。这是因为初看起来,这是两总体均值的比拟问题,即将新方案实施前后的指数分别看作两个总体,将15位储户在新方案实施前后的指数看作来自这两个总体的样本,假设进一步假设这两个总体服从正态分布,便可利用t-检验法检验二者的均值是否有显著差异.但仔细想想,发现这样有点欠妥,因为每位储户的家庭经济状况、消费水平、理财策略等等会有很大的差异,从而储户的存款存在较大差异,这使得各户之间的存款指数缺乏一致性,因而看成来自同一总体的样本是不妥当的.如果我们将同一储户在新方案实施前后的存款指数相减,由于各储户在新方案实施前后的经济状况、消费水平、理财策略等方面不会有太大的变化,那么该差值不是由于各储户的家庭状况的差异而来,而是反映了新方案的实施对存款指数的影响,因而将这些差值看成来自某一总体的样本就比拟合理了.假设进一步假定这些差值服从,那么的大小反映了新方案实施前后对存款指数的平均影响程度.检验方案是否有效,等价于检验假设该假设便可有正态总体均值的t-检验法来检验以分别表示新方案实施前后各储户的存款指数,令那么可看做来自正态总体的一个容量为15的样本观测值。由此可求得:由正态总体均值的t-检验统计量及上述假设可得其拒绝域为〔注意此处〔〕〕即代入具体数据可求得。由于,故拒绝,所给数据结果显著地支持新方案有效。本例关于原假设的选择表达了数理统计数材中指出的如何选择零假设和备择假设的精神.即我们“希望〞证实某方法有效果时,“有意〞将“该方法无效"作为零假设.因为如果这时还能拒绝零假设(特别时在显著性水平较小时),那么“有效果〞的断言就得到更有力的支持.反之,假设把“新方法有效果〞作为零假设,那么当它被承受时,只是说明有效果的断言“能与观察数据相容〞,并不能说明它受到观察数据的有力支持.本例中所介绍的方法称为成对数据比拟的参数性检验方法.能用此方法检验的问题在现实世界量存在.例如,为了比拟两个玉米品种的平均亩产量,如果利用正态总体均值此较的检验方法,我们应设计如下试验:选择()块形状面积一样的地块,其中块种植品种,得亩产量,块种植品种,得亩产量,然后将这两组数据看成来自两个正态总体的样本,利用正态总体均值比拟的检验方法检验,两品种的平均亩产是否有显著差异.但仔细想想,假设用该方法检验,必须要求这()个地块的土质肥沃程度和地质、气候等条件一样,不然得话,假设种植A品种的那m块田地比拟肥沃,或其它条件较好,那么即使A品种不恍于B品种,但试验结果也可能有利于A品种.而选择()块各种条件一致的田块在实际中(尤其当,较大时)是很难做到的.但如果我们取块田地,将其一分为二,其中一小块种植品种A,另一小块种植品种B(哪一小块种植品种A,可随机决定),这样,即使块田地的土质,气候等条件不一致,哪一个品种也不会占地利之便,每块田地上A,B两品种的亩产量之差,正好反映了两个品种对产量的影响程度,将看成来自某总体的样本,检验其均值是否为零就比拟合理了。又如,为了比拟一种新的降血压药品A与以往使用的降血压药品B的疗效(以一定时间血压降低量作为比拟标准),可以取()个患者,其中个服用药品A,另个服用药品B.假设将服用药品A的疗效和服用药品B的疗效看作来自两个总体的样本作比拟,以检验新药品的疗效是否优于原药品,这样又产生与上述类似的问题:病人的情况不一,有的病情较重,身体条件较差,用药难以见效,有的患者那么相反。为防止这种误差,我们可选取对患者,使每对在各种条件上尽可能一致,各队中人选一名服用A,另一名服用B,而不同对患者的条件可以有很大差异。这样设计不但此要求()个患者的条件一致更容易实现,而且各对两患者的疗效之差较确切地反映了这两种药品的疗效差异,从而可利用成对数据的比拟方法较好地解决这两种药品疗效的比拟问题.进一步,如果这种药品的降压效果可在一定地时间消失,那么可只选择个人,在充分长的时间间隔下分别服用药品A和B,测定其疗效,用其差值检验两种药品的疗效差异,这可使得各对数据之间更具有可比性,但它要求药品的疗效无后效性,否那么,这种方法是不可取的。再如,在双胞胎中先出生与后出生者在某个时期的一些指标(如智商,身高)的比拟中,假设我们抽取了对双胞胎,由于各对双胞胎所处的家庭环境及社会环境不同,将先出生的个双胞胎与后出生的个双胞胎分别看成来自两个总体的样本,对所关心的指标作比拟是不妥的,而将每对双胞胎的该项指标值之差看作来自某总体的样本,便可很好的解决其比拟问题。总结上述诸例的思想,我们可以提出成对数据比拟的一般模型如下:设要比拟两种处理方法的效果,这里“处理方法〞的含义可以很广泛,如银行经理的新的储蓄方案和原方案,两种玉米品种,两种药品,先后出生的双胞胎等等;选择对试验对象。每对中两个试验对象的条件尽可能的一致,而不同对之间不要求一致;在每对试验对象中,随机地指定其中之一给处理方法A,另一个给处理方法B,经试验可观测得到对每个试验对象的处理效果度量值.列表如下:样式对象处理方法A处理方法b差12…………N这里是在第对式样对象中,所观测到的处理方法B的处理效果优于A的量(为了确定起见,我们假定观测值越大,处理效果越大).这个量不受试验对象的条件差异影响,因为每对两个试验对象的条件已尽量一致了.我们假定为来自某个总体(通常假定为正态总体的样本,那么该总体的均值就表示处理方法B的处理效果平均优于处理方法A的量。这样一来,两处理方法的效果比拟就归结为的检验问题。例如:要检验两处理方法的效果是否一样,等价于检验是否为零;要检验处理方法A不优于B,等价于检验≥O是否可被承受:要检验处理方法B的效果平均优于A的量不小于,等价于检验是否有,等等。案例21、一元线性回归分析的Excel实现某班级60名同学的数学〔x〕和物理成绩〔y〕如下表,求数学成绩〔x〕预测物理60名同学的数学和物理成绩数学92737454796568751131191051147490103物理686343246343706070777492568677数学124871078561851071275410148941046964物理726471725566587742764548694546数学724734739587846092988112312110171物理455135507458585350432883536368数学798499786755507512111212963748970物理305875283845283261788123516470成绩〔y〕的一元线性回归方程。〔1〕输入数据将要分析的数据输入Excel文本中。〔2〕选择方法点击Excel文本上方的“工具〞,点对话框中的“数据分析〔D〕〞,出现数据分析对话框时,向下拖动数据分析对话框的滑块,点选“回归〞后,点数据分析对话框的“确定〞,出现左图所示的回归对话框.〔2〕输入变量区域分别在“Y值输入区域〞、“X值输入区域〞的矩形框输入物理成绩、数学成绩的起止位,并勾选“线性拟合图〞选项,如左图所示.〔4〕输出结果点回归对话框中的“确定〞,出现下面回归分析的分析表及线性拟合图、回归分析的显著性方差分析表.回归分析的分析表回归分析的显著性方差分析表由回归分析的分析表可得,数学成绩预测物理成绩的线性回归方程是:.由回归分析的显著性方差分析表知,回归显著性概率为:.线性拟合图案例22、方差分析的Excel实现用Excel程序可以进展单因素方差分析、可重复的双因素方差分析、无重复的双因素方差分析,由于操作过程相差不多,为方便起见我们以单因素方差分析问题为例来说明方差分析的操作过程.为了研究速度训练,弹跳能力训练,力量训练对运发动跳远成绩的影响,把一批跳远成绩大体相当的年轻运发动随机分为三组,分别加强100米跑〔5名〕,三级跳〔6名〕,力量〔4名〕的训练,半年后进展跳远成绩测量。问这三种不同的体质训练对提高跳远运发动跳远成绩的影响是否有显著差异?〔1〕输入数据将要分析的输入数据Excel文本中,如左图所示.〔2〕选择方法点击Excel文本上方的“工具〞,点对话框中的“数据分析〔D〕〞,出现数据分析对话框时,如左图所示.向下拖动数据分析对话框的滑块,点选“方差分析:单因素方差分析〞后,点数据分析对话框的“确定〞,出现下列图所示的方差分析:单因素方差分析对话框.〔3〕输入变量区域在方差分析:单因素方差分析的对话框中的“输入区域〔I〕〞的条形框输入分析数据的所在区域;“分组方式:〞选择“行〔R〕〞.〔4〕输出结果点方差分析:单因素方差分析的对话框中的“确定〞,得到输出如下两个结果图.方差分析:单因素方差分析方差分析组观测数求和平均方差SSdfMSFP-valueFcrit0.926420.463210.40620.00243.88530.5342120.04451.460614行1525.985.1960.0408行2631.765.29330.0600行3418.784.6950.0236由输出结果可知,显著性概率:P-value是0.0024,说明这三种不同的体质训练对提高跳远运发动跳远成绩的影响非常显著。通过观察发现,行2〔三级跳远〕平均值〔5.2933〕最大,因此认为,加强三级跳远的训练最有利于提高跳远运发动的跳远成绩.案例23、预测高考分数某校82名学生2008年高考模拟考试总分与当年高考总分的相关系数为0.7,当年高考总分的标准差为40分.由诸建立了回归方程.假设2009年高考情况与2008年一样.在2009年高考前,得到学生高考模拟考试总分.〔1〕检验回归方程的显著性.〔2〕预测高考模拟考试总分为580学生的高考总分。〔3〕如果希望高考总分有95%的概率在500分以上,高考模拟考试总分应在多少分以上?解〔1〕用积差相关系数检验回归方程的显著性因为,在0.01的显著性水平上拒绝零假设,承受备择假设。认为回归方程是极其显著的.〔2〕估计高考模拟考试总分为580学生的高考总分为即平均来说,高考模拟考试总分为580学生的高考总分为543分.〔3〕由得分。即要高考总分有95%的概率在500分以上,高考模拟考试总分应在602.52分以上.案例24、两次地震间的间隔时间服从指数分布研究地震预报问题一般需要用到时间序列分析方法。而两次地震间的间隔时间服从什么分布是研究地震预报中的一个关键问题。这个问题可以用分布拟合检验法加以解决。自1965年1月1日到1971年2月9日共计2231天中,全世界记录到里氏4级和4级以上的地震共162次,统计数据见下表相继两次地震间隔天数0~45~910~1015~1920~2425~2930~3435~39≥40频数50312617108668经历知,两次突发事件之间的时间间隔一般从指数分布。对,检验相继两次地震间隔的天数服从指数分布。在此,我们需检验假设:的概率密度函数:不服从指数分布由于的分布密度中含有未知参数,我们需要首先对其估计。可知,的矩估计及极大似然估计均为我们将的可能取值区间按记录时间分为个互不重叠的子区间其中取各组的时间间隔的中间值,即,而由于的分布函数的估计为故其中检验统计量的观测值计算过程及结果见下表检验表的计算[0,4,5]500.278845.1664.8340.517[4,5,9.5]3l0.219635.575-4.4750.588[9.5,14.5]260.1527247371.2630.064[14.5,19.5]170.106217.204-0.2040.002[19.5,24.5]100.073911.972-1.9720.325[24.5,29.5]80.05148.327-0.3270.013[29.5,34.5]60.03585.8000.2000.007[34.5,39.5]60.02484.0180.7800.046[39.5,]80.05689.202合计1621.000162.001-0.00l1.679其中中4.018﹤5,由于,我们将其与9.202组合并(从而将各项相加得,对,故承受,即根据所记录的数据,我们认为两次地震间的阆隔时间服从参数为13.77的指数分布.知道了两次地震间隔时间的分布,对了解地震规律及预报都有十分重要的意义 
/
本文档为【概率统计补充案例】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索