为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

统计学(南财)第六章

2018-09-10 20页 doc 489KB 110阅读

用户头像

is_359725

暂无简介

举报
统计学(南财)第六章 目 录 第六章 参数估计 3 第一节 抽样推断的基本概念与原理 3 一、抽样推断的特点和作用 3 二、重复抽样与不重复抽样 4 三、抽样误差与抽样平均误差 4 四、抽样推断的理论基础 6 五、参数估计的基本步骤 7 第二节 参数估计中的点估计 7 一、总体参数的点估计 7 二、点估计量的优良标准 7 第三节 参数估计中的区间估计 8 一、参数估计的精度与抽样平均误差计算 8 二、参数估计的误差范围与概率度 11 三、总体参数的区间估计 12 第四节 抽样组织方式及其参数估计 13 一、简单随机抽样 13 二、分层抽样 1...
统计学(南财)第六章
目 录 第六章 参数估计 3 第一节 抽样推断的基本概念与原理 3 一、抽样推断的特点和作用 3 二、重复抽样与不重复抽样 4 三、抽样误差与抽样平均误差 4 四、抽样推断的理论基础 6 五、参数估计的基本步骤 7 第二节 参数估计中的点估计 7 一、总体参数的点估计 7 二、点估计量的优良标准 7 第三节 参数估计中的区间估计 8 一、参数估计的精度与抽样平均误差计算 8 二、参数估计的误差范围与概率度 11 三、总体参数的区间估计 12 第四节 抽样组织方式及其参数估计 13 一、简单随机抽样 13 二、分层抽样 14 三、机械抽样 16 四、整群抽样 16 第五节 必要样本容量的确定 17 一、平均数的必要样本容量 17 二、成数的必要样本容量 18 三、影响必要样本容量的因素 18 习 题 19 第六章 参数估计 统计抽样推断是统计学研究的重要内容,它包括两大核心内容:参数估计(Parameter Estimation)和假设检验(Hypothesis Testing)。两者都是根据样本资料,运用科学的统计理论和方法,参数估计对所要研究的总体参数,进行合乎数理逻辑的推断;假设检验对先前提出的某个陈述,进行检验判断真伪。 2005年中国消费者协会的主题是“健康·维权”。想象你是中国消费者协会的官员,负责治理缺斤少两的不法行为。假如你知道可口可乐公司,他们生产的一种瓶装雪碧,包装上标明其净含量是500ml,在市场上随机抽取了50瓶,测得到其平均含量为499.5ml,标准差为2.63ml。你拿着这些数据可能做两件事:一是你做一个估计:该种包装的雪碧平均含量在498.77-500.23ml之间,然后向消协写份报告;二是你做一个裁决:说“可口可乐公司有欺骗消费者的行为”的证据不足。前者是参数估计;后者是假设检验。 学习参数估计和假设检验要注意:(1)明确要研究的问题,并给出正确的提法;(2)确定合适的统计量,统计量也可以认为是统计推断模型,不论是参数估计还是假设检验,都要通过统计量来进行,构造的统计量是否可行,直接关系到统计推断的效果,因此要仔细研究和比较统计量的性质;(3)统计参数估计和假设检验是根据样本资料对总体进行认识的,这就要求样本资料必须要有代表性,否则不可能客观反映总体的情况;(4)参数统计与非参数统计方法的主要区别,在于前者在处理问题的时候总是从已确知的分布出发,所以在进行统计参数推断时,要能够掌握统计量的精确分布即统计量的抽样分布;(5)给出推断结果的合理解释。 本章首先集中说明抽样推断中的常用术语,然后主要介绍参数估计的基本原理,点估计和区间估计的方法,以及必要样本容量的测算。 第一节 抽样推断的基本概念与原理 抽样推断是按照随机性原则,从研究对象中抽取一部分进行观察,并根据所得到的观察数据,对研究对象的数量特征作出具有一定可靠程度的估计和推断,以达到认识总体的一种统计方法。例如,要检验某种工业产品的质量,我们只需从中抽取一小部分产品进行检验,并用计算出来的合格率来估计全部产品的合格率,或是根据合格率的变化来判断生产线是否出现了异常。 一、抽样推断的特点和作用 (一)抽样推断的特点 抽样推断方法与其它统计调查方法相比,具有省时、省力、快捷的特点,从而能以较小的代价及时获得总体的有关信息。 1. 根据样本资料对总体的数量特征作出具有一定可靠性的估计和推断。我们可以用样本的平均数或成数来估计总体的平均数或成数。抽样调查与全面调查相比,虽然目的一致,都是为了达到对总体数量的认识,但是达到目的的手段和途径完全不同:抽样推断是通过科学的推断达到目的的,全面调查是通过综合汇总达到目的的。 2. 按照随机性原则从全部总体中抽取样本单位。所谓随机性原则,就是在抽选样本单位时,总体中每一个单位都有相等被抽中的机会,样本单位的抽中与否完全是偶然的。遵循随机性原则抽取样本是为了保证样本对总体具有充分的代表性,避免人为的误差。也只有按随机性原则抽样,才能根据样本的数量特征对总体的数量特征进行科学的估计,从而达到推断总体的目的。 3. 抽样推断必然会产生抽样误差,这是抽样推断方法本身所决定的。抽样误差是可以事先通过一定的资料加以计算的,并在抽样过程中可以采取一定的来控制误差的范围,从而保证抽样推断的结果达到一定的可靠程度,但抽样误差是不可能消灭的。 (二)抽样推断的作用 1. 某些现象不可能进行全面调查,为了解其全面资料就必须采用抽样推断方法。如对那些有破坏性或消耗性的产品进行质量检验,象炮弹的杀伤半径的检验、灯泡的使用寿命的检验、人体的白血球的检验等,都是不可能进行全面调查的,而只能采用抽样推断的方法。另外,对于无限总体或总体的范围过大时,就很难进行全面调查了。例如,对江河湖海中的鱼尾数、大气或海洋的污染情况等,都属于这种情况。 2. 某些理论上可以进行全面调查的现象,采用抽样推断可以达到事半功倍的效果。如要了解全国城乡居民的家庭收入状况,从理论上讲可以挨门逐户进行全面调查,但是调查范围太大,调查单位太多,实际上难以办到,也没有必要。采用抽样推断既可以节省人力、物力、费用和时间,提高调查结果的时效性,又能达到和全面调查同样的目的和效果。 3. 抽样推断可以对全面调查的结果进行评价和修正。全面调查涉及范围广,调查单位多,工作量大,参加人员多,因而发生登记性和计算性的误差就多。所以,在全面调查后,还可以再抽取一部分单位重新调查一次,计算其差错比率,并以此为依据对全面调查的资料进行修正,这样就可以进一步提高全面调查资料的准确性。由于抽样推断中调查的范围小,可以多调查一些项目,或从事某项更深入的专题调查,以补充全面调查的不足。全国人口普查就是有短表和长表之分,短表用于全面调查,长表用于抽样调查。 4. 抽样推断可用于工业生产过程中的质量控制。在工业产品成批或大量连续生产过程中,采用抽样推断方法可以检验生产工艺过程是否正常,及时提供有关信息,便于采取相应措施,进行质量控制,保证生产质量稳定,防止损失。 5. 利用抽样推断的原理,可以对某些总体的假设进行检验,来判断假设的真伪,为决策提供依据。如某地上一年度居民家庭年收入35000元,本年度抽样调查结果显示居民家庭年收入33000元,这是否意味着该地居民家庭收入水平下降了呢?我们还不能下这个结论,最好通过假设检验,检验这两年居民家庭收入是否存在显著性统计差异,才能判断该地本年度居民家庭收入是否低于上年度水平。 总之,抽样推断是一种科学实用的统计方法,在自然科学与社会科学领域都有着广泛的应用。 二、重复抽样与不重复抽样 抽样推断首先要抽取样本,就具体方法而言有重复抽样与不重复抽样之分。 1. 重复抽样 重复抽样又叫有放还抽样或重置抽样。它是每抽出一个样本单位后,把结果记录下来,随即将该单位放回到总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会。在重复抽样过程中,总体单位数始终保持不变,并且同一个单位有多次被抽中的可能性。 2. 不重复抽样 不重复抽样又叫无放还抽样或不重置抽样。它是每抽出一个样本单位后,把结果记录下来,该单位就不再放回到总体中去参加以后的抽选。在不重复抽样过程中,总体单位数逐渐减少,并且每个单位至多只有一次被抽中的可能性。 不重复抽样的结果,其精度要比重复抽样高,因为它的样本的代表性更好。 三、抽样误差与抽样平均误差 (一)抽样误差(sampling error) 样本指标具有随机性,它的取值随着样本的变化而变化。例如,想要了解某校新生的身高情况,可以从入学新生这个总体中抽取一系列样本进行观察,如果计算出所抽取的各样本的平均身高,就会发现各个样本的平均数并不完全相等,彼此间存在着一定的差异。因此,当我们用样本指标来代表总体指标时就会产生一定的误差,这种误差是抽样推断方法本身所固有的,所以叫抽样误差,属于代表性误差。 抽样误差主要包括样本平均数与总体平均数的差数,样本成数与总体成数的差数。抽样误差愈小,表示样本的代表性愈高;反之,代表性就愈低。 抽样误差的大小决定于以下几个因素: 1. 样本容量n的多少。在其它条件不变的情况下,样本容量愈大,抽样误差就愈小;反之,抽样误差就愈大。可以想象,当把样本容量n扩大到等于总体容量N时,抽样调查也就等于全面调查,抽样误差也就随之消失。 2. 总体被研究标志的变异程度。在其它条件不变的情况下,标志变异程度愈大,抽样误差也愈大;反之,则抽样误差就愈小。如果标志之间没有差异,每一个单位的标志都一样,则抽出任何一个单位都可代表总体,这时也就不存在抽样误差了。 学生:想象一下,如果每个学生考试成绩都是一样的话,那么只要抽一个学生就可以了。 3. 抽样方法的选择。在抽样调查时,采用什么样的方式和组织形式直接影响到抽样误差的大小。在相同的情况下,不重复抽样比重复抽样的误差小,这是因为重复抽样有可能使同一单位被多次抽中,因而产生的样本对总体的代表性就较差。当然,这两种方式产生的差别也仅在总体不很大时才有体现,当总体很大时,这两种抽样的误差也趋于相等。 (二)抽样平均误差 抽样平均误差就是抽样平均数或成数的标准差。在抽样推断中,一个总体可以抽取很多个样本,每个样本都可以算出它的抽样平均数或抽样成数,样本的结构不同,这些数字也就各有不同,因而它们和总体平均数或总体成数之间就会有各种不同的误差。抽样平均误差就是说明各个抽样平均数或抽样成数与总体平均数或总体成数之间的平均误差。它是我们用样本指标来估计或推断总体指标时,计算误差范围的基础。 设以分别代表抽样平均数或抽样成数的平均差,M表示样本的可能数目,则抽样平均误差的理论公式为: (6.1) (6.2) 样本的可能数目M是指在固定样本容量的前提下,从总体中抽取不同样本总体的可能数目,这个数目与抽样方式有关。如果从5个职工中抽取2个组成一个样本,在重复抽样条件下,一共可以组成5×5=25个样本;在不重复抽样条件下,一共可以组成5×4=20个样本,显然这两种方式所得到的样本总数是不同的。下图是我们在Excel进行的数据模拟。 图6.1 数据模型不同的抽样方式 平均误差公式(6.1)和(6.2)只能用来解释平均误差的概念,在实际问题中要根据该公式来计算平均误差是不可能的,首先,总体的平均数或成数通常未知;其次,也很难给出全部样本的平均数或成数。 四、抽样推断的理论基础 抽样推断是以概率论的基本理论之一的极限定理为基础的,极限定理就是采用极限的方法得出随机变量概率分布一系列定理的总称,其内容广泛,其中的大数定律和中心极限定理为抽样估计提供了主要的数学依据。 1. 大数法则 大数法则又叫大数定律,说明由大量相互独立的随机变量构成的总体,其中每个变量虽有各种不同的表现,但对这些大量的变量加以综合平均,就可以消除由偶然因素引起的个别差异,从而使总体单位的某一标志的规律性及其共同特征能在一定的数量和质量上表现出来。 大数法则的理论研究成果众多,我们以切比雪夫大数定律的一特殊情况为例:设为独立的随机变量序列,服从同一分布,且具有相同的期望值以及方差,则对于任意的正数,有: 可见大数法则从数量关系角度阐明了样本和总体之间的内在联系,证明了随着抽样容量n的增加,能够以接近1的概率期望抽样平均数与总体平均数的偏差为任意小。 2. 中心极限定理 有些随机变量表现为大量独立随机变量之和。例如,任意指定时刻城市用电量是大量用电量的总和。中心极限定理就是研究随机变量之和在什么条件下渐近地服从正态分布。 设是相互独立同分布的随机变量,且它们的数学期望为,方差为,则也是一个随机变量,当n很大时,它的分布渐近服从数学期望和方差分别为和的正态分布N(,)。由上述定理,可以得到以下推论: 不论总体是什么分布,只要数学期望和方差存在,从这个总体中随机互相独立地抽取容量为n的样本,则这个样本均值是个随机变量,当n足够大时(一般n≥30),样本均值近似服从数学期望为,方差为的正态分布N(,)。 如果用X表示n次重复独立试验中事件A发生的次数,p为每次试验中事件A发生的概率,则X服从二项分布B(n, p)。根据中心极限定理,当n很大,而p又不太接近0或1时,正态分布为二项分布提供了很好的近似。一般只要n>50,且和都大于5时,我们把X看成近似服从正态分布N[,],或者作变量代换得到,使其近似服从标准正态分布N(0,1)。 中心极限定理是大样本统计推断的理论基础。样本均值也是一种随机变量之和的分布,根据中心极限定理,只要在样本容量n充分大时,不论总体的变量分布是否属于正态分布,其抽样平均数也趋近于正态分布,即随,。这就为抽样推断提供了重要的理论依据。正因为如此,在抽样推断中,正态分布得到了广泛的应用。 五、参数估计的基本步骤 抽样调查有多种组织方式,不论采用何种组织方式,抽样推断的基本原理都是相似的。抽样推断的基本步骤是: 1. 按照一定的抽样方式抽取适当的样本进行调查,针对该种抽样方式选择总体参数的最优样本估计量,计算估计值,以此作为总体参数的点估计; 2. 根据该种抽样方式的抽样平均误差公式计算出抽样误差(或),这里,我们往往要先计算样本标准差以替代未知的总体标准差; 3. 根据所要求的置信水平,查正态分布表、t分布表或其他分布表获得对应的概率度,然后再计算出抽样极限误差,最后对总体参数作出区间推断。 第二节 参数估计中的点估计 一、总体参数的点估计 点估计,也称定值估计,就是以样本估计量直接代替总体参数的一种推断方法。当已知一个样本的观察值时,便可得到总体参数的一个估计值。如在某校学生体重的调查中,获知抽取的400名学生的平均体重为58公斤,则我们说该校8000名学生的平均体重也是58公斤。这种推断就是对总体平均数作了点估计。 点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。例如,推销部门对某种产品估计出全年销售额数值,并分出每月销售额,便可传递给生产部门作为制定生产的依据,而生产部门又可将每月产量计划传递给采购部门作为制定原材料采购计划的依据等。点估计也有不足之处,它不能提供误差情况如何、误差程度有多大的这类重要信息。 点估计常用的方法有两种:矩估计法和极大似然估计法。 1. 矩估计法是英国统计学家K·Pearson提出的。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。因此,只要总体的k阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。例如,用样本均值来估计总体均值,用样本方差来估计总体方差。矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。但矩估计法也有局限性,它要求总体以k阶原点矩存在,否则无法估计,它不考虑总体分布类型,因此也就没有充分利用总体分布函数提供的信息。 2. 极大似然估计法是由Fisher,提出的一种参数估计方法。其基本思想是:设总体分布的函数形式已知,但有未知参数,可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的值作为的估计值,记作,称为的极大似然估计值,这种求估计量的方法称为极大似然估计法。 抽样误差的存在是必然的,点估计不考虑误差范围,因此也就说明不了估计的准确性和可靠性。但区间估计可以弥补这一不足。 二、点估计量的优良标准 用样本估计量去推断总体参数,并非只能用一个样本估计量,而可能有多个估计量可供选择,我们总希望选定的估计量能够推断地好一点,那么“好一点”的标准是什么呢?一般来说有三个基本的标准,满足了这三个标准就可以认为该估计量是优良的。 1. 无偏性。无偏性的直观意义是没有系统性误差。虽然每个可能样本的估计值不一定恰好等于未知总体参数,但如果多次抽样,应该要求各个估计值的平均数等于总体参数,即从平均意义上,估计量的估计是没有偏差的。这一要求称为无偏性。一般来说,这是一个优良的估计量必须具备的性质。例如样本平均数和样本成数分别满足: (6.3) 式中,E表示数学期望,即算术平均数,所以样本平均数(成数)是总体平均数(成数)的无偏估计。 学生:都是无偏估计哦。有没有有偏估计量的呢? 教师:有呀,你们记得不记得第四章我们提到样本标准差的公式和总体标准差的公式是不一样的?其实如果我们将样本方差按着总体方差的公式算的话,那么它就是有偏估计量了,之所以要调整公式,就是将有偏估计量改变成无偏估计量的。大部分数理统计的书上都对此做了证明,有空去看看哦。 2. 一致性。一致性要求用样本估计量估计和推断总体参数时要达到:样本容量n充分大时,样本估计量充分靠近总体参数,即随着n的无限增大,样本估计量与未知的总体参数之间的绝对离差任意小的可能性趋于实际的必然性。根据概率论中的大数定律可知:对于任意给定的正数有: (6.4) 上式表明,当样本容量越来越大时,样本平均数(样本成数)与总体平均数(总体成数)的偏差小于任意给定的正数的可能性趋近于1的概率,即几乎是一定发生的。因此,样本估计量是总体参数的一致估计量。 3. 有效性。有效性要求样本估计量估计和推断总体参数时,作为估计量的标准差比其它估计量的标准差小。如果一个无偏估计量在所有无偏估计量中标准差最小,即: (6.5) 式中,为任意一个无偏估计量,则是有效估计量,或称该估计量具有有效性。显然,如果某总体参数具有两个不同的无偏估计量,希望确定哪一个是更有效的估计量,自然应该选择标准差小的那个。估计量的标准差愈小,根据它推导出接近于总体参数估计的值的机会愈大。 我们可以证明:样本平均数(成数)推断总体平均数(成数)均能满足优良估计的三条标准。 第三节 参数估计中的区间估计 一、参数估计的精度与抽样平均误差计算 参数估计的精度通常是指抽样误差的大小。抽样误差越大,参数估计的精度就越低;抽样误差越小,参数估计的精度就越高。参数估计的精度必须通过计算抽样误差才能反映,由于在抽样过程中总体参数总是一个未知的常数,所以,样本估计值与总体参数的真实值之间究竟有多大的差距,实际上是无法得知的;同时,由于样本估计值是一个随机变量,它随着每次抽出的样本不同而不同,某一次抽样结果的误差,仅仅是反复抽样中一系列抽样结果可能出现的误差数值中的一个,直观上看显然不能用它来概括一系列可能抽样结果所产生的所有实际误差。所以,在抽样调查理论中,我们采用抽样平均误差,即所有抽样估计值的标准差作为参数估计的抽样误差大小的尺度。 教师:这里所说的“所有抽样估计值”根据不同的抽样方式,是有不同的。再看图6.1,对重复抽样来说,共有25个抽样估计值,计算其标准差为56.57;对不重复抽样来说,共有20个抽样估计值,计算其标准差为48.99。 (一)抽样平均数的抽样平均误差 由于抽样平均数是个随机变量,由抽样平均误差的定义可知,抽样平均数的平均误差就是的标准差。设以表示抽样平均数的平均误差,表示样本的可能数目,如采取重复抽样,用数理统计知识可以证明平均数的抽样平均误差公式为: (6.6) 式中的代表总体的标准差。当总体标准差未知时,一般可用样本标准差来代替。 教师:看图6.1,计算总体的标准差为80,再根据公式(6.6),计算得:56.57。 公式(6.6)可以看出,在重复抽样的情况下,抽样平均数的抽样平均误差仅为总体标准差的,即样本平均数的标准差比总体的标准差大大缩小。例如,当样本的单位数为100时,则平均数的标准差仅为总体标准差的1/10。 如采用不重复抽样,用数理统计知识可以证明平均数的抽样平均误差公式为: (6.7) 式中的表示总体单位数, 教师:看图6.1,计算总体的标准差为80,再根据公式(6.7),计算得:48.99。 当很大时,上面的公式可以近似的表示为: (6.8) 同理,当总体标准差未知时,我们也可以用样本标准差来代替总体的标准差。 上面不重复抽样误差的近似公式与重复抽样误差公式的区别是公式中多了一个。这是一个修正系数,也称为校正因子。由于修正系数是一个大于0而小于1的系数,因此,在同样情况下,不重复抽样的平均误差也总是小于重复抽样的平均误差。如果总体的单位数很大而样本的单位数相对很小时,则接近于1,这时修正系数也就作用不大了。因此,实际工作中,按不重复抽样方法进行抽样时,也往往用重复抽样的公式来计算抽样平均误差。 【例6.1】 从某校8000名学生中随机抽取400人,称得其平均体重为58公斤,标准差为10公斤,计算抽样平均误差。 【解】 在重复抽样条件下为: 在不重复抽样条件下为: (二)抽样成数的抽样平均误差 抽样成数的抽样平均误差表明各样本成数的绝对离差的平均水平。对于属性总体我们可以把它化为变量总体。例如在个产品中,有件合格品,件不合格品,对合格品将其标志值记为1,不合格品标志值记为0,这时总体平均数为: 可见,总体的成数可以表现为总体是(0、1)标志的平均数,同理样本的成数也就转化为样本的平均数。因而,成数的平均误差也就成了平均数的平均误差,只是这时总体的标准差是:,因此,当我们用来代替平均数的平均误差公式中时,即可得相应的抽样成数的平均误差计算公式。在重复抽样条件下: (6.8) 式中π为总体成数。在不重复抽样的条件下: (6.9) 当总体单位数很大时,可近似表示为: (6.10) 一般总体的成数是未知的,通常是用样本的成数p来代替公式中的总体成数。 【例6.2】有一批食品罐头共60 000瓶,从中随机抽取300瓶,发现有6瓶不合格,求合格率的抽样平均误差。 【解】 在重复抽样条件下为: (其中,合格率) 在不重复抽样条件下: 二、参数估计的误差范围与概率度 抽样平均误差只是衡量误差可能范围的一种尺度。它并不等同于抽样指标与总体指标之间的真实误差。由于总体参数是一个确定的常数,而样本估计量会随抽取的样本不同而围绕总体参数上下随机取值。因此,样本估计量与总体参数之间存在一个误差范围。 所谓抽样误差范围就是指变动的样本估计值与确定的总体参数之间离差的可能范围,它可用样本估计值与总体参数的最大绝对误差限来表达。统计上称这一误差限为抽样极限误差或抽样允许误差。 设和分别表示样本平均数和样本成数的抽样极限误差,则有: (6.11) 上式表明,抽样平均数或抽样成数在或之间变动。将上面的绝对值不等式展开可得: (6.12) 这些不等式表明,样本平均数是以总体平均数μ为中心,在之间变动的;样本成数是以总体成数为中心,在之间变动的。抽样误差范围是以或为中心的两个的距离。这是抽样极限误差的原意。但是,由于总体参数是未知的常数,而样本估计值是可以通过调查求得的,因此,我们也可以把上面的两个不等式改写成等价的另一种形式,即: (6.13) 可见,抽样极限误差的实际意义就是希望总体平均数落在抽样平均数的范围之内;总体成数落在抽样成数的范围之内。 对于一个总体来说,当抽样方式以及样本的单位数确定后,抽样误差就是个确定的值,而抽样极限误差则是根据不同情况和精确程度,由人们来确定其大小的。因此,抽样极限误差常常以抽样平均误差(或)为单位来衡量,并且把抽样极限误差(或)除以抽样平均误差(或)所得的数值叫做概率度。若以z表示概率度,则有: (6.14) 若事先确定概率度的大小,则可以得到抽样极限误差为: (6.15) 由于抽样平均数是一个随机变量,由中心极限定理可知:当充分大时,就服从正态分布,从而服从标准正态分布。这样我们就可以在确定的误差范围下,求出相应的概率大小,而抽样极限误差的大小又可确定相应概率度的大小,这样如先确定概率度为z,则可求得相应的概率为: (6.16) 上式就是抽样平均数落在之间的概率,如总体平均数未知,则上式也可以看作是落在之间的概率。 上述的积分值要查标准正态分布表,在查表时要注意:有的表给出的是的值,也有的可给出的值。(标准正态分布表见附录一) 从前面的式子可以明显地看到这样的关系:当确定的抽样极限误差愈大,则概率度z也就愈大,相应的概率也愈大,即抽样平均数(或抽样成数)落在指定范围的可能性也愈大;反之,则相应的概率就减少。现将常用的概率度z与相应的概率的几个数值对应列表如下(表6.1): 表6.1 常用的概率度与概率对照表 概率度z 1 1.65 1.96 2 2.58 3 概率F(z) 0.6827 0.9000 0.9500 0.9545 0.99 0.9973 三、总体参数的区间估计 总体参数的区间估计就是依照一定的概率保证程度,用样本估计值估计总体参数取值范围的方法。 设总体参数为,、是由样本确定的两个统计量,对于给定的(),有: = 1- 则称(、)为参数的置信度为1-的置信区间。该区间的两个端点、分别称为置信下限和置信上限。置信区间的直观意义:若作为多次同样的抽样,将得到多个置信区间,其中有的区间包含了字体参数的真值,有的区间没有包含总体参数的真值。 1-为置信度,亦称为置信水平或置信概率,置信度表达了参数区间估计的可靠性。 置信区间越小,说明估计的精确性越高;置信度越大,估计可靠性就越大。一般说来,在样本容量一定的前提下,精确度与置信度往往是相互矛盾的:若置信度增加,则区间必然增大,降低了精确度;若精确度提高,则区间缩小,置信度必然减小。要同时提高估计的置信度和精确度,就要增加样本容量。 如果对总体的平均数与成数做区间估计,依据的计算公式就是(6.13)式。以平均数为例,这里的就等于;就等于。 【例6.3】某公司有职工3000人,从中随机抽取60人调查其工资收入情况。调查结果表明,职工的月平均工资为2350元,标准差为193元,月收入在2000元及以上职工40人。试以95.45%的置信水平推断该公司职工月平均工资所在的范围和月收入在2000元及以上职工在全部职工中所占的比重。 【解】依题意计算如下: ∵F(z)=95.45%,∴ z=2 计算结果表明,有95.45%的把握说该公司职工月平均工资在2300.66到2399.34元之间。 月收入在2000元及以上职工在全部职工中所占的比重为: 计算结果表明,有95.45%的把握说该公司月收入在2000元及以上职工占全部职工的比重在54.63%到78.71%之间。 回到我们开头的例子,你在市场上随机抽取了50瓶雪,测得到其平均含量为499.5ml,标准差为2.63ml,如果以95%的置信度,则可算出:,,所以: 第四节 抽样组织方式及其参数估计 抽样有多种组织方式,不同的组织方式,计算抽样平均误差的公式也有所不同,本节介绍常用的四种抽样组织方式,并举例说明各种方式的参数估计。 一、简单随机抽样 简单随机抽样又叫纯随机抽样,是最简单、最普遍的抽样组织方法。它是按照随机性原则直接从总体的全部单位中,抽取若干个单位作为样本单位,保证总体中每个单位在抽选中都有同等被抽中的机会。简单随机抽样在理论上是最符合随机抽样原则的。前面我们所讨论的有关抽样误差的计算公式都是在简单随机抽样条件下得到的。随机抽选样本单位的具体做法有如下三种: 1. 抽签法 根据抽样框,每个单位都编有1至的唯一的编号。我们可以做个完全一样的分别标上1至的标签,充分地拌匀后逐个地抽出个标签,然后根据抽样框找到相应的抽样单位进行现场调查,从而得到一个简单随机样本。 如果总体比较大,抽签法就显得比较笨重,实施起来不太方便,甚至于根本无法实施,此时可利用随机数字表法。 2. 随机数字表法 随机数字表,是供抽样使用的,由0到9这十个数码随机排列组成的多位数字表。在使用前,先将总体的全部单位编号,并根据编号的位数确定使用表中数字的列数;然后,从任意一行、任意一列、任意方向开始数,遇到编号范围内的数字就作为样本单位,超过编号范围内的数字就跳过去,直到抽够样本单位数目为止。(随机数字表见附录二) 3. 计算机软件中的随机函数产生随机数的功能   Excel解决 ① 将数据集03中的序号摘出,要求在这470个人员中随机抽取10人 ② 选择菜单“工具”—“数据分析”,打开“数据分析”对话框,见图2.9 ③ 选择其中的“抽样”,打开对话框,见图6.2 ④ 正确填写相关信息后,点“确定”,结果将C列中见图6.3,图中E列是又一次运行的结果。 图6.2 “抽样”分析工具对话框 图6.3 随机抽样的采集结果 二、分层抽样 在抽样调查实践中,经常遇到的情况是:在动手设计抽样方案之前,我们对所要研究的总体构成已经有了某种程度的了解。例如已知总体单位分属于不同类型的子总体;已知与调查标志相关的一些辅助标志等等。此时,我们可以而且应该利用这种事先获得的有关信息来改进抽样方案设计,以提高抽样推断的精度。分层抽样就是这样一种组织方法。 分层抽样又叫类型抽样,它是先将总体各单位按某一有关标志分成若干个类型组,然后按照一定比例再从各类型组中随机抽取样本单位。例如,在职工家庭生活调查中,可先将全部职工按部门分为工业、商业、文教、卫生等部门,然后再从这些部门中按一定比例抽选基本单位和职工户。采用这种抽样方法可以提高样本的代表性,减少抽样误差。对于那些总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题,一般都可以采用分层抽样的方法进行抽样调查。 由于各个类型组的单位数一般是不相等的,从各个类型组中抽取多少样本单位有两种不同的确定方法。一种是按各组标志值变动的大小来确定,没有统一的抽样比例;另一种是按比例抽样,即保持每组样本单位数与样本容量之比等于各组总体单位数与全及总体单位数之比。 例如,设总体由个单位组成,把总体分成为k组,使,若样本的总容量为,则从第组抽取的样本单位数应满足: (6.17) 所以各组抽取的样本单位数应为: (6.18) 并且有: (6.19) 即各组抽取的样本单位数之和等于样本总容量。 在类型比例的条件下,可以给出抽样平均数(或抽样成数)和抽样误差的计算公式。设从第组的抽取的样本是:,于是,第组的抽样平均数是: (6.20) 样本总体的平均数为: (6.21) 同理,样本总体方差的平均数为: (6.22) 重复抽样误差公式为: (6.23) 不重复抽样误差公式为: (6.24) 【例6.4】某地有10000名劳动力,其中:从事农业劳动的有7000人,从事工业劳动的有3000人,现按两类人数的比例抽取100人,计算各相关指标如表6.2,请以95%的置信水平推断该地人均收入的区间。 表6.2 各组平均收入与标准差 类型 全部人数 抽样人数 样本平均数 样本标准差 从事农业 7000 70 750 25 从事工业 3000 30 1000 30 【解】由于该例题中抽样总体仅占全及总体的1%,故可采用重复抽样公式来计算。具体计算如下: ∵F(z)=95%,∴ z=1.96 故有95%的把握说,该地人均收入在819.81元到830.19元之间。 三、系统抽样 系统抽样又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志排队,并根据总体单位数与样本单位数的比例计算出抽样距离和间隔,随机确定一个起始点作为第一个样本单位,以后每隔相等的距离和间隔抽取样本单位。 对总体单位排队时所采用的标志,可以是与调查项目有关的,也可以是与调查项目无关的,前者称为有关标志排队法;后者称为无关标志排队法。例如,对某校学生学习情况进行调查,如按身高排队就是无关标志排队;如按考试分数排队就是有关标志排队。按无关标志排队的机械抽样,其抽样平均误差与简单随机抽样十分接近,一般都采用简单随机抽样的平均抽样误差公式代替计算。而采用有关标志排队时,其抽样平均误差一般要小于简单随机抽样的平均误差。 在实际进行抽样时必须注意到,机械抽样在排定顺序,且第一个样本单位的位置确定后,其余单位的位置也就随之确定。因此,要避免抽样间隔和现象本身的周期性节奏相重合引起系统性的影响,如工业产品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防止发生系统性偏差。 在图6.2 抽样分析工具对话框中的抽样方法中的第一项“周期”,就是帮助我们进行机械抽样的,只要输入抽样的间隔,计算机就会为你提供抽到的数据。 四、整群抽样 整群抽样是将总体所有单位划分为若干个群(组),然后以群(组)为单位从中随机抽取部分群(组),对抽中的群(组)内所有单位进行全面调查的抽样组织形式。如调查某县教育情况,我们可以从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。整群抽样与前面三种抽样组织方法相比,是抽样单位扩大了,即抽取的基本单位不再是总体单位而是群(组)。 我们把整群抽样与简单随机抽样相比较,把群看作总体单位,则整群抽样就成了简单随机抽样,故整群抽样的误差公式可以通过简单随机抽样的误差公式导出。把一个总体分成个群,然后在个群中随机抽取个群,设群间方差为,由于整群抽样都是采用不重复抽样的方法,故抽样平均误差公式为: (6.25) 【例6.5】某连续生产企业为掌握某月份某种产品的一等品率,确定抽出5%的产品,即在全月连续生产的720小时中,每隔20小时抽取1小时的全部产品进行调查。调查结果一等品率为80%,群间方差为7%,请以95.45%的置信度对一等品率进行区间推断。 【解】根据题目提供的信息; ∵F(z)=95.45%,∴ z=2 即有95.45%的把握说,一等品率的置信区间为71.4%到88.6%之间。 整群抽样的最大优点是实施方便,从而节省了大量调查费用。但整群抽样的单位比较集中,影响了抽样单位在全及总体中分布的均匀性,因而抽样误差比简单随机抽样来得大。在实践中,整群抽样一般比其它方法要多抽一些单位,以便降低抽样误差。 第五节 必要样本容量的确定 在实际抽样调查中,确定一个合适的样本容量是一个重要的问题。因为,样本容量过多,必然会增加人力、财力、物力的支出,造成不必要的浪费;而样本容量过少,又会导致抽样误差增大,达不到抽样所要求的准确程度。 因此,必要样本容量就是在保证误差不超过规定范围的条件下尽可能节省人、财、物的支出。 一、平均数的必要样本容量 1. 重复抽样 由可得: (6.26) 从上式可以看出,如确定了抽样极限误差、总体标准差以及概率度,就能确定必要样本容量。 2. 不重复抽样 由可得: (6.27) 【例6.6】某批发站欲估算零售商贩的平均每次进货额,根据历史资料进货额的标准差为1000元,假定到批发站进货的商贩有2000人,若要求置信水平为99.73%,抽样极限误差不超过250元,应该抽取多大的样本? 【解】这里没有说明采用的抽样方法,故我们可按上述两个公式分别计算其必要样本容量, ∵F(z)=99.73.%,∴ z=3 重复抽样条件下的必要样本容量: 不重复抽样条件下的必要样本容量: 学生:四舍五入应该是134才对呀。 教师:这叫随大原则,当计算样本容量n时,必须是只能进,不能舍,否则将来计算误差的时候就达不到规定的要求。 二、成数的必要样本容量 1. 重复抽样 由可得: (6.28) 2. 不重复抽样 由可得: (6.29) 【例6.7】某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在5%,问如果以95%的置信度进行参数估计,需要多大的样本? 【解】 ∵F(z)=95%,∴ z=1.96 根据公式(6.28)得: =384.16≈385(人) 学生:这个题目没有告诉我们p,缺条件呀。为什么用0.5来替代p? 教师:记得我们说了随大原则,这里再一次用了随大原则。p(1-p)在p=0.5时取得极大值,证明很容易,你们自己做哦。所以当p未知时,就可以用0.5来替代。 三、影响必要样本容量的因素 为了确定必要样本容量,我们必须分析影响样本容量的因素。影响必要样本容量的因素主要有: 1. 总体各单位标志变异程度,即总体方差的大小。总体标志变异程度越大,要求样本容量要大些;反之则相反。 2. 抽样极限误差的大小。抽样极限误差越大,要求样本容量越小;反之则相反。 3. 抽样方法。在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。 4. 抽样方式。例如,采用类型抽样的样本容量要小于简单随机抽样的样本容量。 5. 抽样推断的概率保证程度的大小。概率越大,要求样本容量越大;反之则相反。 以上影响样本容量的诸因素,可以从样本容量计算公式的推导结果上加以验证。 习 题 一、填空题 1、为推断总体的某些重要特征,从总体中按一定抽样技术抽取若干个体,这一过程称为 。 2、概率抽样最基本的组织方式有:纯随机抽样、分层抽样、机械抽样和 。 3、中心极限定理告诉我们不管总体服从什么分布,其 __ 的分布总是近似服从正态分布。 4、只要使用非全面调查的方法,即使遵守随机原则, ___ 也不可避免会产生。 5、参数估计有两种形式:一是 _ ,二是 _ 。 6、判别点估计优良性的三个准则是: 、 和 。 7、抽样的允许误差是指 与 的最大绝对误差范围。 8、对于简单随机重复抽样,若其他条件不变,则当允许误差范围Δ缩小一半,抽样单位数必须为原来的 倍。若Δ扩大一倍,则抽样单位数为原来的 。 9、如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是______,允许误差是______。 10、在同样的精度要求下,不重复抽样比重复抽样需要的样本容量 。 二、判断题 1、抽样误差的产生是由于破坏了随机原则所造成的。( ) 2、在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。( ) 3、当总体中的个体很多但分布不均匀时,不宜采用抽样调查方法。( ) 4、抽样调查所遵循的基本原则是可靠性原则。( ) 5、样本指标是一个客观存在的常数。( ) 6、全面调查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。( ) 7、抽样平均误差就是抽样平均数的标准差。( ) 8、机械抽样如果按有关标志排队,其抽样平均误差一般要小于简单随机抽样的平均误差。( ) 三、单项选择题 1、将全及总体中的个体按某一标志排列,再依固定顺序和间隔抽选调查单位的抽样组织方式叫做( ) A. 分层抽样 B. 简单随机抽样 C. 整群抽样 D. 等距抽样 2、计算抽样平均误差时,若有多个样本标准差的资料,应选哪个来计算( ) A. 最小一个 B. 最大一个 C. 中间一个 D. 平均值 3、抽样误差是指( ) A. 计算过程中产生的误差 B. 调查中产生的登记性误差 C. 调查中产生的系统性误差 D. 随机性的代表性误差 4、比例和比例方差的关系是( ) A.比例越接近于0,比例方差越大 B.比例越接近于1,比例方差越大 C.比例越接近于0.5,比例方差越大 D.比例越接近于0.25,比例方差越大 5、整群抽样是对被抽中的群作全面调查,所以整群抽样是( ) A. 全面调查 B. 非全面调查 C. 一次性调查 D. 经常性调查 6、抽样调查结果表明,甲企业职工平均工资方差为25,乙企业为100,又知乙企业工人数比甲企业工人数多3倍,则随机抽样误差( ) A. 乙企业较大 B. 甲企业较大 C. 相同 D. 不能作出结论 四、多项选择题 1、抽样调查中的抽样误差( )( )( )( )( ) A.是不可避免要产生的 B.是可以通过改进调查方法来避免的 C.是可以计算出来的 D.只能在调查结束之后才能计算 E.其大小是可以控制的 2、重复抽样的特点是( )( )( )( )( ) A.各次抽选相互影响 B.各次抽选互不影响 C.每次抽选时,总体单位数始终不变 D.每次抽选时,总体单位数逐渐减少 E.各单位被抽中的机会在各次抽选中相等 3、抽样调查所需的样本容量取决于( )( )( )( )( ) A. 总体方差 B. 允许误差 C. 样本个数 D. 置信度 E. 抽样方法 4、分层抽样误差的大小取决于( )( )( )( )( ) A. 各组样本容量占总体比重的分配状况 B. 各组间的标志变异程度 C. 样本容量的大小 D. 各组内标志值的变异程度 E. 总体标志值的变异程度 五、简答题 1、什么叫抽样?抽样方法主要有哪两种? 2、什么是中心极限定理? 3、什么叫估计量?评价估计量优劣有哪些标准? 4、确定必要的抽样数目有何意义?必要抽样数目受哪些因素影响? 六、计算题 1、某地区粮食播种面积共5000亩,按不重复抽样方法随机抽取了100亩进行实测。调查结果,平均亩产为450公斤,亩产量的标准差为52公斤。试以95%的置信度估计该地区粮食平均亩产量的区间。 2、某地对上年栽种的一批树苗共3000株进行了抽样调查,随机抽查的200株树苗中有170株成活。试以95.45%的概率估计该批树苗的成活率的置信区间和成活总数的置信区间。 3、某公司有职工3000人,现从中随机抽取60人调查其工资收入情况,得到有关资料如下:(1)以95%的置信度估计该公司工人的月平均工资所在范围;(2)以95.45%的置信度估计月收入在1000元及以上工人所占比重。 月收入 800 900 950 1000 1050 1100 1200 1500 工人数 6 7 9 10 9 8 7 4 4、对一批产品按不重复抽样方法抽选200件,其中废品8件。又知道抽样总体是成品总量的1/20,当概率为0.9545时,可否认为这一批成品的废品率低于5%? 5、某企业从长期实践得知,其产品直径X服从正态分布。从某日产品中随机抽取10个,测得其直径分别为14.8,15.3,15.1,15.0,14.7,15.1,15.6,15.3,15.5,15.1(单位:厘米)。在95%和99%的置信度下,求该产品直径平均数的置信区间。 6、某厂对一批产品的质量进行抽样检验,采用重复抽样方式抽取样品200只,样本优质品率为85%,计算当把握程度为95%时优质品率的区间范围。 7、检验某食品厂本月生产的10000袋产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45%的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品? 8、某企业对一批产品进行质量检验,这批产品的总数为5000件,过去几次同类调查所得的产品合格率为93%、95%和96%,为了使合格率的允许误差不超过3%,在99.73%的概率下应抽查多少件产品?
/
本文档为【统计学(南财)第六章】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索