为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

王静龙《非参数统计分析》(1-6章)教案

2022-01-11 7页 doc 3MB 12阅读

用户头像 个人认证

陈海

暂无简介

举报
王静龙《非参数统计分析》(1-6章)教案引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8。50.1),随即抽取n=100件零件,数据如下:表1。18。5038.5088。4988。3478。4948。5008。4988。5008.5028。5018。4918。5048.5028。5038。5018。5058.4928。4978。1508。4968。5018...
王静龙《非参数统计分析》(1-6章)教案
引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。例如:分析下面的供应商的产品是否合格?合格产品的长度为(8。50.1),随即抽取n=100件零件,数据如下:1。18。5038.5088。4988。3478。4948。5008。4988。5008.5028。5018。4918。5048.5028。5038。5018。5058.4928。4978。1508。4968。5018.4898。5068.4978。5058。5018.5008。4998。4908.4938。5018。4978。5018。4988.5038.5058.5108。4998.4898。4968.5008.5038.4978。5048。5038。5068.4978。5078。3468.3108。4898。4998。4928.4978。5068.5028。5058.4898.5038。4928。5018。4998。8048。5058.5048。4998。5068.4998。4938。4948。4908。5058。5118.5028.5058.5038。7828。5028.5098。4998。4988.4938.8978.5048。4938.4947。7808。5098.4998。5038.4948。5118。5018.4978。4938。5018。4958。4618.5048。691经计算,平均长度为,非常接近中心位置8.5cm,样本标准差为cm。一般产品的质量服从正态分布,.这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂商,而用非参数分析却是另外一个结果。以下是100个零件长度的分布表:长度(cm)频率(%)~8。4058。40~8.4608。46~8。4818。48~8。50458.50~8。52458。52~8.6008.60~4合计100这说明有90%的零件长度在cm之间,有9%的零件不合格,所以工厂不需要换供应商。例2哪一个企业职工的工资高?表1.3两个企业职工的工资企业1111213141516171819204060企业23456789103050显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布,则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为,备择假设为则若为真,则其中拒绝域为:检测值为:故不能拒绝原假设,认为两企业的工资水平无差异。也可以用检验由于故不能拒绝原假设,认为两企业的工资水平无差异.这里我们采用的显著性水平为0。1。但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。非参数统计如同光谱抗生素,应用范围十分广泛.参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互为补充。描述性统计§2。1表格法和图形法表格法主要有列频数分布表和频率分布表例2。1某公司测试新灯丝的寿命,列表如下:10773689776799459985773815465718084799863656679866874618265986371621166479787977868976748573806878897258927888771038863688881647375906289717470856165617562947185848363926881找到最小值43,最大值116;将组数分为5~20组,,分16组,组距为5表2。2灯丝寿命的频率分布表灯丝寿命(小时)个数频率(%)40—-4410。545——4910。550——5421。055——5984.060-—642412。065——692814.070——743015。075——793417。080-—842311。585--892211。090—-94147.095——9984。0100--10431。5105--10910.5110——11400。0115-—11910。5总和200100对应的直方图为:§2。2表格法和图形法数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。135331323244列1平均2。833333标准误差0.34451中位数3众数3标准差1.193416方差1。424242峰度-0.20317偏度—0.00713区域4最小值1最大值5求和34观测数12它的平均数,中位数,众数差不多大。但大部分情况不是这样的,例如:§表2。3某保险公司赔款样本数据频率分布表赔款数赔款次数0—-4002400-—80032800-—1200241200——1600191600——2000102000-—240062400——280032800-—320023200-—360013600—-40001合计100平均数,中位数,众数分别为:1224,1000,600,这三者相差较大.左峰的时候:众数中位数平均数,右峰的时候:平均数中位数众数。平均数容易受到异常值的影响,故不能很好地代表中心位.例如某地农户收入增长了2。9%,但减收的农户却是60%,为了更好地反映中心位,所以很多情况采用的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。§2.4经济专业毕业生的月收入数据毕业生月收入毕业生月收入118502195032050418805175061700718908213091940102340111920121880去掉最大值2340,最小值1700,的切尾平均数比总体平均数要小,它为1924,而总体平均数为1940.但中位数都一样,均为1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:§2.5有缺陷的小巧克力不合格品问题的频数频率分布表代码问题频数频率(%)1外层不够48652.832两个粘在一起434.673被压扁29532.074外层太多849.135破裂121.30这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。平均数与中位数为何可以表示数据的中心位置呢?主要是因为:(2。1)(2。2)这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图2.8处,平均数为4,中位数为3,就意味着把树木集中在3这点,所走的路最短。***********123456789中位数平均数§2.2。2表示离散程度的数值表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab)数据容量N12平均数Mean1940中位数Median1905切尾平均数TrMean1924标准差StDev170。6标准误SEMean49.3最小值Minimum1700最大值Maximum2340下四分位数1857。5上四分位数2025用统计软件Minitab画箱线图(见图2.9)图2。9四分位数的计算分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等。四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述.一、资料未分组四分位数计算第一步:确定四分位数的位置。Qi所在的位置=i(n+1)/4,其中i=1,2,3。n表示资料项数。第二步:根据第一步四分位数的位置,计算相应四分位数。例1:某数学补习小组11人年龄(岁)为:17,19,22,24,25,28,34,35,36,37,38。则三个四分位数的位置分别为:Q1所在的位置=(11+1)/4=3,Q2所在的位置=2(11+1)/4=6,Q3所在的位置=3(11+1)/4=9。变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数,即:Q1=22(岁)、Q2=28(岁)、Q3=36(岁)我们不难发现,在上例中(n+1)恰好是4的整数倍,但在很多实际工作中不一定都是整数倍。这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1。例2:设有一组经过排序的数据为12,15,17,19,20,23,25,28,30,33,34,35,36,37,则三个四分位数的位置分别为:Q1所在的位置=(14+1)/4=3。75,Q2所在的位置=2(14+1)/4=7。5,Q3所在的位置=3(14+1)/4=11.25。变量中的第3。75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数,即:Q1=0.25×第三项+0.75×第四项=0。25×17+0。75×19=18。5;Q2=0。5×第七项+0。5×第八项=0。5×25+0.5×28=26。5;Q3=0。75×第十一项+0。25×第十二项=0.75×34+0。25×35=34.25。二、资料已整理分组的组距式数列四分位数计算第一步:向上或向下累计次数(因篇幅限制,以下均采取向上累计次数方式计算);第二步:根据累计次数确定四分位数的位置:Q1的位置=(∑f+1)/4,Q2的位置=2(∑f+1)/4,Q3的位置=3(∑f+1)/4式中:∑f表示资料的总次数;第三步:根据四分位数的位置计算各四分位数(向上累计次数,按照下限公式计算四分位数):Qi=Li+fi×di式中:Li——Qi所在组的下限,fi——Qi所在组的次数,di——Qi所在组的组距;Qi—1——Qi所在组以前一组的累积次数,∑f——总次数。例3:某企业工人日产量的分组资料如下:根据上述资料确定四分位数步骤如下:(1)向上累计方式获得四分位数位置:Q1的位置=(∑f+1)/4=(164+1)/4=41.25Q2的位置=2(∑f+1)/4=2(164+1)/4=82.5Q3的位置=3(∑f+1)/4=3(164+1)/4=123。75(2)可知Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组,日产量四分位数具体为:Q1=L1+■×d1=70+■×10=72。49(千克)Q2=L2+■×d2=80+■×10=80。83(千克)Q3=L3+■×d3=90+■×10=90.96(千克)shitouwa43202014—10-23§2.2。3标准误假设产生数据的总体的均值为,方差为。它们的估计分别为样本平均值,样本方差和样本标准差,由于平均数的标准差为,所以它的估计取为,称为标准误。由得在显著性水平0。95的条件下,得置信区间的端点即得。用Mintab计算得到:VariableNN*MeanSEMeanStDevMinimumQ1MedianQ3MaximumC11201940。049.3170。61700.01857。51905。02025。02340。0算得到所求置信区间为:用Excel计算得到:平均1940标准误差49。25198中位数1905众数1880标准差170.6139方差29109.09峰度1。874516偏度1。102987区域640最小值1700最大值2340求和23280观测数12置信度(95.0%)108。4029所求置信区间为:两款软件计算结果相差不大。§2.2。4偏度偏度(Skewness)反应单峰分布的对诚性,总体偏度用表示样本偏见度用表示,国家标准的计算公式为:其中在Excel中的计算公式为:一般数据的分布是右偏的,数据的分布是左偏的,我们倾向于认为总体的分布是对称的。§2。2.4峰度峰度(Kurtosis)反映峰的尖峭程度,总体峰度用表示,总体的峰度的定义为(国家标准)样本峰度用,国家标准的计算公式为由于正态分布的峰度系数为3,当时为尖峰分布,当时为扁平分布.第三章符号检验法符号检验是一种较为简单的非参数检验,中位数检验是符号检验的一个重要应用。例3。1某市劳动和社会保障部门的资料说明,1998年高级技师的年收入的中位数为21700元,该市某个行业有一个由50名高级技师组成的样本,数据如下:230722437020327242962225619140256692240426744267442340620439248902481524556184722451422516251122348026552240741806422590原假设与备择假设为:选择统计量,即为大于中位数的的个数,表示计数,也可表示为:若为真,则而检测值计算P值即检测值落入拒绝域.故拒绝原假设,接受备择假设在excel中如何使用BINOMDIST函数返回一元二项式分布的概率值BINOMDIST函数用于返回一元二项式分布的概率值。函数语法语法形式BINOMDIST(number_s,trials,probability_s,cumulative)number_s:表示实验成功的次救.trials:表示独立实验的次数.probability_s:表示一次实验中成功的概率。cumulative:表示一逻辑值,决定函数的形式,如果cumulative为TRUE,函数BINOMDIST返回积累分布函数,即至多number_s次成功的概率;如果为FALSE,返回概率密度函数,即number_s次成功的概率。例如,抛硬币正反面的概率是0.5若要计算出抛10次硬币6次是正面的概率。可以使用BINOMDIST函数来实现.Step01选中C4单元格,在公式编辑栏中输入公式:=BINOMDIST(A2,B2。C2,TRUE)按Enter键即可计算出积累分布函数,即至多6次成功概率,如图8-73所示。Step02选中C5单元格,在公式编辑栏中输入公式:=BINOMDIST(A2,B2。C2.FALSE)按Enter键即可计算出概率密度函数,即6次成功的概率,如图8—74所示。§3。2符号检验在定性数据分析中的应用有的时候,观察值是一些定性数据,如果定性数据仅取两个值,就可以使用符号检验对它进行统计分析。例3。2某项调查询问了2000名年轻人。问题是:你认为我们的生活环境是比过去更好,更差,还是没有变化?有800人觉得"越来越好",有720人感觉一天不如一天,有400人表示没有变化,还有80人说不知道,根据调查结果,你是否相信,在总体认为我们的生活比过去更好的人,比认为我们的生活比过去差的人多?解:原假设与备择假设为选择统计量,也可表示为:则由于n很大,所以可以近似认为其中利用正态分布的计算结果修正后由于P值较小,所以我们认为我们的生活环境变好了。§3.3成对数据的比较问题由于同一块田的生长环境相同,不同的地生长环境各不相同,所以将这批数据写成成对的形式。,为品种差,为随机差。关于原点对称的分布。由于都服从关于原点对称的分布,(同分布)则所以关于原点对称.其它分位点的检验茆诗松老师教材P414,例7.6。3以往的资料表明,某种圆钢的90%的产品的硬度不小于103(),为了检验这个结论是否属实,现在随机挑选20根圆钢进行硬度实验,测得其硬度分别是:14213411998131102154122931378611916114415816581117128113问这批钢材是否达标?解:原假设与备择假设为:选取统计量,若原假设成立,则检测值,检验的P值为即检测值落入拒绝域,故拒绝原假设,接受备择假设即产品不达标。例7。6。4工厂有两个化验室,每天同时从工厂的冷却水中取样,测量水中的含氯量()一次,记录如下:i(实验室A)(实验室B)差11。0310。0321。851.89-0。0430.740。9—0。1641。821。810。0151。141.2-0。0661。651。7—0.0571.921。94-0。0281。011.11—0。191。121。23-0.11100。90。97—0。07111。41.52-0。12问两个化验室测定的结果之间有无显著性差异?解:设A,B实验室的测量误差分别为:并设的分布函数分别为。由于选取统计量原假设与备择假设为:若为真,则在Z的分布关于原点对称选取统计量即表示中正数的个数。检验值,检验的P值为:在显著性水平为,检测值未落入拒绝域,故接受原假设,认为两个化验室的检测结果之间无显著性差异.例7。6.5在某保险类中,一次2008年索赔数额的随机抽样为(按照升序排列):4632472850525064548469727596948014760150121872021240228365278867200已知2007年索赔数额的中位数为5063元,问2008年索赔的中位数较上一年是否有所变化?解:这是一个双侧检验问题:原假设与备择假设为:选取统计量显著性水平。计算得:所以双侧拒绝域为:而检测值,落入拒绝域。故拒绝原假设,接受备择假设,即可以认为2008年索赔的中位数较上一年有所变化.方法二:也可采用值检验检验的值为:故检测值落入拒绝域,所以拒绝原假设,接受备择假设,即可以认为2008年索赔的中位数较上一年有所变化。例7.6。6。1984年一些国家每平方公里可开发的水资源数据如下表所示(万度/年)国家每平方可开发水资源国家每平方可开发水资源苏联4.9印度8。5巴西4。1哥伦比亚26。3美国7.5日本34。9加拿大5。4阿根廷6.9扎伊尔28.1印度尼西亚7。9墨西哥4。9瑞士78.0瑞典22。3罗马利亚10.1意大利16.8西德8。8奥地利58。6英国1。7南斯拉夫24。8法国11.5挪威37。4西班牙13。4而当年中国的该项指标为20万度/年。请用符号检验方法检验:这22个国家每平方公里可开发的水资源的中位数不高于中国,求检验的P值,并写出结论。解:原假设与备择假设为:选取统计量,若原假设成立,则显著性水平,查表得:右侧拒绝域为:又检测值或者检测的P值为故接受,拒绝。即可认为这22个国家可开发的水资源的中位数不高于中国。例7。6。7。下面是亚洲十个国家1996年的每1000个新生儿中的死亡数(按从小到大的次序排列)日本以色列韩国斯里兰卡中国叙利亚伊朗印度孟加拉巴基斯坦46915233136657788以M表示1996年1000个新生儿中死亡数的中位数,试检验:,求检验的P值,并写完出结论.解:原假设与备择假设为:选取统计量,若原假设成立,则显著性水平,查表得:左侧拒绝域为:又检测值或者检测的P值为故接受,拒绝。即可认为1996年1000个新生儿中死亡数的中位数不低于34。例7。6。8.某烟厂称其生产的每支香烟的尼古丁含量在12mg以下,实验室测定的该烟厂的12支香烟的尼古丁含量(单位:mg)分别为:16。717。714。111.413。410.513.611。612。012.611.713。7问是否该厂所说的尼古丁含量比实际要少?求检验的P值,并写出结论。由于对于非正态总体,小样本场合不能用样本均值检验,所以下面采用中位数检验。解:原假设与备择假设为:选取统计量,若原假设成立,则显著性水平,查表得:右侧拒绝域为:又检测值或者检测的P值为故接受,拒绝.即可认为该厂的尼古丁含量比实际含量要少。第四章符号秩和检验法§4。1对称中心为原点的检验问题设对称中心为,则原假设与备择假设分别为:引入符号检验统计量为:将排序。设的秩为引入符号秩和检验统计量为:表4。110个观察值和它们的符号,绝对值和绝对值的秩观察值-7。6—5.54.32.7-4。82.1-1.2—6.6-3.3—8。5符号绝对值7。65。54.32。74。82.11.26.63。38.5绝对值的秩97536218410,下面讨论符号秩和检验的检验方法,原假设与备择假设为:如果,则对于任意的正数a,即此时较大,为检验的临界值为原假设与备择假设为:此时此时较小,为检验的临界值为原假设与备择假设为:我们在较大或者较小的时候拒绝原假设,检验的临界值,为§4。2符号秩和检验统计量的性质性质4。1令,则在总体的分布关于原点0对称时,与同分布:表4.110个观察值和它们的符号,绝对值和绝对值的秩观察值-7.6—5。54.32.7-4。82。1—1。2—6.6-3。3—8.5符号绝对值7.65。54。32。74。82。11。26.63。38.5绝对值的秩97536218410表4。310个观察值和它们的符号,绝对值和绝对值的秩观察值-1.22。12。7—3。34。3-4。8—5。5—6.6—7。6—8。5符号绝对值1.22。12.73.34。34。85。56.67。68.5绝对值的秩97536218410,这样就初步说明了性质4.1的概率分布,在总体关于原点0分布时,相互独立,同分布,且所以是离散的分布,它的取值范围是,且(4。1)其中表示从中取若干个,其和恰好为d的取法数,例如:.,,性质4.2在总体的分布关于原点0对称时,与同分布:所以的分布(4。2)于是这说明的密度是以中心对称的。性质4。3在总体的分布关于原点0对称时,的分布的对称中心为:例4。1有12个工人,每个工人用两种生产方式完成一项生产任务,所用时间对比如下表所示:表4。4用两种方式完成一项生产任务的完工时间及其差值工人方式1方式2差值工人方式1方式2差值120。318。02.3716。117。2—1。1223.521.71.8818.514。93.6322。022。5—0.5921.920。01。9419.117。02。11024.221.13。1521。021.2—0。21123.422.70。7624.724。8—0。11225.023.71。3表4.5差值的符号,绝对值及绝对值的秩工人差值符号差的绝对值绝对值的秩工人差值符号差的绝对值绝对值的秩12。32。3107—1.11。1521.81.8783。63.6123-0。50.5391。91。9842.12.19103.13。1115-0。20。22110。70.746—0.10。11121.31。36符号秩和统计量原假设与备择假设为我们在较大或者较小的时候拒绝原假设由于而检测值既有故检测值落入拒绝域所以拒绝原假设,接受备择假设即认为两种生产方法有差异,方法1不如方法2,方法1需要更多的时间.例:7。6。99名学生到英语培训学习,培训前后各进行了一次水平测验,成绩如下:学生编号i123456789入学前成绩767170574969652659入学后成绩818570525263833362—5-1405—36—18-7—3假设测验成绩服从正态分布,问学生的培训效果是否显著?不假定总体分布,采用符号检验的方法检验学生的培训效果是否显著?采用符号秩和检验方法检验学生的培训效果是否显著,三种检验方法结论是否相同?解:(1)由于测验成绩符合正态分布,而未知,所以我们采用原假设与备择假设为:由于未知,所以我们选取统计量显著性水平左侧拒绝域为。而检测值另一方面也可以用P—值也可判断检测值不在拒绝域.检验的P值。故检测值。故接受,拒绝,即认为培训效果不明显。(2)原假设与备择假设为:选取符号检验统计量:则这里显著性水平查表得所以左侧拒绝域为而检测值.另一方面也可以用P—值也可判断检测值不在拒绝域。检验的P值。故检测值.故接受,拒绝,即认为培训效果不明显.(3)原假设与备择假设为:选取统计量.这里显著性水平查表计算得:满足,右侧临界点为37,由于密度的对称中心为,所以左侧临界点为左侧拒绝域为。而检测值故接受,拒绝,即认为培训效果不明显。7.6。10为了比较来做鞋子的两种材料的质量,选取15个男子,每人穿一双新鞋,其中一只是以材料A做后跟,另外一只是以材料B做后跟,其厚度均为10mm,过一个月再测量厚度,数据如下:序号123456789101112131415材料A6。67。08。38。25。29。37。98.57.87。56。18。96。19。49.1材料B7。45。48.88。06。89。16。37。57.06.54。47。74.29。49。1问是否可以认为材料A制成的鞋子比材料B耐穿?设来自正态总体,结论是什么?采用符号秩和检验,结论是什么?解:(1)由于符合正态分布,而未知,所以我们采用原假设与备择假设为:由于未知,所以我们选取统计量显著性水平右侧拒绝域为.而检测值另一方面也可以用P—值也可判断检测值在拒绝域.检验的P值。故检测值。故拒绝,接受,即认为材料A制成的鞋后跟比材料B耐穿。(2)原假设与备择假设为:选取统计量.这里显著性水平查表计算得:满足,右侧临界点为90。右侧拒绝域为.而检测值故拒绝,接受,即认为材料A制成的鞋后跟比材料B耐穿.7。6。11某饮料商用两种不同的配方推出两种新的饮料,现在调查10位消费者,他们对两种饮料的评分如下:品尝者12345678910A饮料10868751397B饮料6522464578问两种饮料评分是否有显著性差异?采用符号检验法作检验;采用符号秩和检验法作检验。解:(1)解:原假设与备择假设为:选取统计量即为更喜欢A饮料的人数,若原假设成立,则计算得:所以双侧拒绝域为:检测值,检验的P值为即检测值未落入拒绝域,故接受,拒绝。即认为两种饮料的评分没有显著性差异。(2)原假设与备择假设为:选取统计量.这里显著性水平查表计算得:满足,右侧临界点为47,则左侧临界点为双侧拒绝域为。而检测值故接受,拒绝,即认为两种饮料的评分没有显著性差异。7。6。12测试精神压力和没有精神压力的血压差别,10个志愿者进行了相应的实验,数据如下(单位:毫米汞柱收缩压):无精神压力时107108122119116118121111114108有精神压力时127119123113125132121131116124该数据是否表明有精神压力的情况下的血压是否有所增加?解:采用符号秩和检验原假设与备择假设为:其中为总体密度函数的对称中心,选取统计量。这里显著性水平查表计算得:满足,右侧临界点为45,则左侧临界点为左侧拒绝域为。而检测值故拒绝,接受,即认为有精神压力导致血压增加。§4。3符号秩和检验统计量的渐近正态性期望与方差在总体的分布关于原点o对称时,相互独立,每一个的分布都是。而,则它的期望与方差分别为:由于与有相同的分布,所以(2)渐近正态性性质4。5如果总体关于原点对称,则在样本容量n趋于无穷大时,有渐近正态性:或者简记为。§4.4平均秩法平均秩的基本定义:即对于相同的样本取平均秩.每个元素赋予平均秩为:平均时的秩和与平方和为非平均的时候秩和与平方和为(4。8)与(4。10)结果一样.由(4。11)减去(4。9)得到于是由(4。11)与(4。12)得:性质4。6在总体的分布关于原点o对称,有结秩取平均时,在有结的情况下,如果总体关于原点对称,则在样本容量n趋于无穷大时,有渐近正态性:严格上以上期望与方差是在有结的情况下的计算结果,所以严格书写应该按照以下方式:§4.5对称中心的检验问题有以下几种情形:原假设与备择假设为例4。5:通常认为人在放松条件下入睡的时间比紧张状态下的入睡时间要少两分钟,现在有十名男性,他们在放松下与紧张状态下的入睡时间分别为,,表4.10显示10个差值8个小与-2,只有2个不小于—2,所以我们有理由猜测放松状态下比非放松状态下入睡时间要少2分钟,这个猜测是否正确?表4。10成年人在放松的条件下和没有放松的条件下入睡所需的时间研究对象i放松条件非放松条件差值差值+2绝对值秩11015—5—3372912-3-11331222-10—88104815-7—5595910-111367702267816—6—4488710—3-11391114—3—1131069—3—113符号秩和检测值为原假设与备择假设为左侧拒绝域为。而检测值故拒绝,接受,即认为成年男性在放松条件下入睡的时间比紧张状态下入睡时间要少于2分钟.由于样本容量n足够大的时候,有渐近正态性,所以也可以用正态分布作检测。原假设与备择假设为在为真的时,即检测值为:检测p值为所以在显著性水平为0。05下,检测值落入拒绝域故拒绝,接受,即认为成年男性在放松条件下入睡的时间比紧张状态下入睡时间要少于2分钟。第五章两样本问题§5。1Mood中位数检验法例2哪一个企业职工的工资高?表1。3两个企业职工的工资企业1111213141516171819204060企业23456789103050他们的合样本为其中带表示企业2的职工的工资,其他的为企业1的工资,合样本的中位数为13.5,将以上数据转化为四表格表5。1四格表工资<13。5千元工资〉13.5千元合计企业1企业2合计,这说明服从超几何分布设总体的的中位数分别为原假设与备择假设为在成立的情况下,服从超几何分布这是一个单侧检验问题,拒绝域在左边.检测值为,检测P值为所以检测值落入拒绝域,故拒绝,接受,即认为企业1的职工比企业2的职工的工资要高。§5。2Wilcoxon秩和检验法设有独立同分布的样本,不妨设总体是连续的随机变量,从而可以以概率为1保证样本单元互不相等,则单个的秩服从均匀分布:由以上结论,我们可以得出定理5。1对任意的都有证明:对于任意的,都有定理5.2对于任意的,都有证明:对于任意的,都有于是所以5。22秩和检验的求解过程例1。2将两个企业22名职工合在一起,从小到大排序得到下表:工资秩1234567891011工资秩1213141516171819202122带表示企业2的工资,不带表示企业1的工资。考虑到人数多的检验效果一样,所以一般我们选择人数少的企业的秩和作检验。设公司1与公司2的中位数分别为原假设与备择假设为选取统计量,这里代表公司2的员工工资的秩和。这是一个单侧检验问题,拒绝域在左边.查表得:所以检测p值故检测值在拒绝域,所以拒绝原假设,接受备择假设,即认为企业2的工资比企业1要低。§5。3Wilcoxon秩和检验统计量的性质假设样本和分别来自相互独立的连续随机变量总体,不妨设合样本各元素互不相同,样本容量为,原假设。记在合样本中的秩为.在原假设为真的条件下,服从均匀分布:所以记的样本的秩和为下面讨论Wilcoxon秩和统计量的分布性质它依次取由于服从均匀分布:所以具有以下性质性质5。1设原假设成立,的概率分布和累积概率分别为为从取n数,其和恰好为d的取法数。从中任取10个数,其和恰好为d的取法故故故故故对称性假设从中取出n个数,其和为d,则剩下的数,其和为,故和为d的取法数与和为的取法数一样多。从而故概率密度的对称轴为.从而有性质5。2在原假设为真的条件下,概率密度的对称轴为。由定理5.1和5.2知由于在原假设为真的条件下,当时,有渐进正态性。由以上分析,有以下结论。性质5.4在原假设为真的条件下,当时,有§5.2.4Wilcoxon秩和检验的备择假设原假设与备择假设为在成立的条件下,的值较小.在成立的条件下,的值较大。在成立的条件下,的值可能较小也可能较大。§5。2。5Wilcoxon秩和检验的平均秩法对于任意的记分函数,我们有定理5。6设有独立的随机变量,,则对于任意的,都有证明:又故定理5。7设样本和分别来自相互独立的连续型随机变量总体和.令,记在合样本中的秩为设有计分函数,则在和同分布时,有利用证明.针对有结的情况下,在下,由(4。13)(4.14)于是(5.4)(5。5)(5。6)在有结的情况下,wilcoxon秩和检验统计量的期望与方差分别为由以上结论,有例5。2。5为了比较两种型号的汽车每加仑汽油的行驶里程,合样本中的秩见表如下:第一种型号汽油第二种型号汽油汽车行驶里程(英里)秩序汽车行驶里程(英里)秩序120。621121.324219.916217。64318。68317。43418。911418。57518.89.5519。713620.218621。123721。022717。32820。519。5818.89。5919。814.5917。851019。814。51016.911119.2121118。061220。519。51220。117解;原假设与备择假设为选取统计量则检测值这是一个双侧检验问题,拒绝域在两侧检测P值故检测值落入拒绝域,所以拒绝原假设,接受备择假设,即对于每加仑汽油汽车行驶的里程数不相同,而且认为对于每加仑汽油,第一种汽油行驶的里程数大。§5。2。5Wilcoxon秩和处理位置参数差的检验问题原假设与备择假设为原假设与备择假设为以上检测均可用Wilcoxon秩和处理。注明:课本74-77的Mann-WhitneyU统计量检验法与Wilcoxon检验法类似,因为两种检测统计量只相差一个常数,故检测模式类似,这里就不做详细介绍.§5.4两样本尺度参数的秩检验法设的分布函数分别为,则,成立的充分必要条件证明:充分性证明。由知,对于任意的都有必要性的证明.若对任意都有,则由于的分布函数所以.当时即即由以上式子知:在左右两边的尾部概率比要大.即样本倾向于排两边,样本倾向于排中间。类似的当时,既有由以上式子知:在左右两边的尾部概率比要小.即样本倾向于排中间,样本倾向于排两边。§5。4.2尺度参数检验问题Mood检验取计分函数为单谷函数,(2)Ansari—Bradley检验取计分函数为单峰函数,即在时,即在时,例如时1234567812344321123456789123454321记siegel-Turkey检验取为单谷函数,被减序列为0,3,47,811,1210,96。5,2,1例如123456789965213478记Klotz检验取为单谷函数记表5.14尺度参数检验问题的解原假设被择假设何种情况拒绝原假设比较大,比较小比较大,比较大比较小,比较大比较小,比较小比较大或比较小,比较大或比较小比较大或比较小,比较大或比较小尺度检验的引例:多样本问题§6.1Kruskal-Waillis检验例6.1某公司的管理人员来自三所大学,年度评分如下:A大学B大学C大学8475587265787580809555627295659069727542表6。3各组秩的均值的计算A大学B大学C大学1712395.5141215.515。519。524919。55。51879121设的分布函数原假设与备择假设分别为总的秩的均值为组间平方和为引入统计量由于在Kruskal—Waillis检验临界值表中查不到,考虑到当n足够大的时候,,所以用检验P值为P值很大,故检测值在正常的大概率区间,所以接受原假设,即认为三所大学人员的管理水平无显著性差异。§6。1。2Kruskal-Wallis检验设样本各不相同。原假设与备择假设分别为,我们用ANOVA方法处理总均值为总偏差为组间平方和SSB与组内平方和SSW分别为(6.1)由于所以只需计算组间差SSB.选取统计量(6。2)§6。1。3Kruskal-wallis检验统计量的渐进分布由5.3知于是即所以当时Kruskal-Waillis统计量H渐进服从。即(6。3)§6.1。4有相等观察值时Kruskal—wallis检验统计量的修正由6。2式所以的修正为:.在例6.1中由于长度为2的结有3个,长度为3的结有2个.所以的修正为=4。09检验P值为故不能拒绝原假设,所以认为三所大学的管理人员的水平无显著性差异。§6.2趋势的秩检验法原假设与备择假设为单调升的理想状态是在理想的状态下,其中若正相关,则数据有上升的趋势.若负相关,则数据有下降的趋势.为此计算下列数据对相关系数为其中由(4。13)(4。14)只需要选取统计量由于由于所以我们选取趋势统计量其中(6。4)在原假设为真的条件下,易证(6。5)(6。6)有重复观察值得修正为(6.7)当样本数量足够大时,.例6。2表6。4不同年龄组的男性的脂蛋白的含量第一组第二组第三组第一组第二组第三组260310320205210380200310260190280240240190360200210295170225310250280260270170270200240250表6。5不同年龄组的男性的脂蛋白的含量的秩第一组1。53.566681416.51921.5第二组1。53.59。59。511。51423.523。52727第三组11.51416。5191921。525272930原假设与备择假设为:由于由得由于长度为2的结有7个,长度为3的结有4个检验P值为P值很小,故拒绝原假设。接受备择假设,认为数据时正相关,即年龄越大的人脂蛋白的含量越高。
/
本文档为【王静龙《非参数统计分析》(1-6章)教案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索