为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

统计学重点.doc

2017-11-28 36页 doc 157KB 36阅读

用户头像

is_196623

暂无简介

举报
统计学重点.doc统计学重点.doc 两大学派的争论:1政治算术学派2国势学派 , 政治算术学派被认为是无统计学之名而有统计学之实。这是统计学的正统。他用数 字、重量和尺度来分析英国、法国、荷兰三国的国情国力,提出了英国社会经济发 展的方向。 , ―国势学‖,主要讲述有关国情国力的系统知识,包括土地、人口、政治、军事、财 政、货币、科学、艺术和宗教等。但这个学派始终没有把数量对比分析作为这门科 学的基本特征。 一、统计的涵义 , 统计工作:统计实践(感性的认识) , 统计资料:统计工作的结果 , 统计学:统计理论(理性的认识) ...
统计学重点.doc
统计学重点.doc 两大学派的争论:1政治算术学派2国势学派 , 政治算术学派被认为是无统计学之名而有统计学之实。这是统计学的正统。他用数 字、重量和尺度来分析英国、法国、荷兰三国的国情国力,提出了英国社会经济发 展的方向。 , ―国势学‖,主要讲述有关国情国力的系统知识,包括土地、人口、政治、军事、财 政、货币、科学、艺术和宗教等。但这个学派始终没有把数量对比分析作为这门科 学的基本特征。 一、统计的涵义 , 统计工作:统计实践(感性的认识) , 统计资料:统计工作的结果 , 统计学:统计理论(理性的认识) 统计工作是对社会、经济以及自然现象的总体数量方面进行搜集、整理和分析过程的总称; 统计学是研究大量社会现象(主要是经济现象)的总体数量方面的方法论科学。 一般地说,统计学的研究对象是社会经济现象的数量特征和数量关系。 数量特征:数量水平、数量规模 数量关系:比例、平均数、速度等 三、统计的特点 数量性、具体性、总体性、社会性 统计工作的基本任务有两条:一是服务,二是监督。 统计学的研究方法 大量观察法、综合指标法、统计分组法、统计工作过程 就一次统计活动来讲,一个完整的认识过程可分为四个阶段: 统计设计 即根据统计任务和统计对象的特点,对统计工作的各个方面和各个环节进行通盘考虑和安排; 统计调查 即根据统计任务所确定的指标体系,拟订调查纲要,搜集被研究对象的准确材料;主要介绍调查方法 统计整理 就是对调查资料加以汇总综合,使之系统化、条理化;主要介绍统计分组、分配数列、统计图、统计表等 统计分析 就是将加工整理好的统计资料加以分析研究,采用各种分析方法,计算各种分析指标,揭示被研究对象的基本特征和发展的规律性,必要时还要对其未来的发展作出科学的预测,统计分析是统计工作的最后阶段,也是统计发挥信息、咨询和监督职能的关键阶段 , 标志是说明总体单位特征的名称。 , 指标是说明总体的综合数量特征的。一个完整的统计指标包括指标名称和指标数值 两个部分。 标志与指标的区别 说明 名 称 表示方式 数值的取得方式 使用的条件 对象 总体单位的数量标志不一定经标志一般不具备时 标 志 属性特征或文字或数值 过汇总 间、地点等条件 数量特征 作为一个完整的统计总体的数量指标数值是经过一 指 标 数值 指标,一定要讲时间、特征 定的汇总取得的 地点、范围。 标志与指标的关系: 第一,有许多统计指标的数值是从总体单位的数量标志值汇总而来的。 如:呼市每一个工业企业的增加值汇总就得到整个呼市工业增加值的数值。 第二,两者存在着一定的变换关系。 统计数据资料是通过统计调查来搜集的。 统计调查是调查主体对被调查客体的一种认识活动,是统计工作的第二个阶段。它是以搜集占有大量的数字资料为主体信息。 统计调查所搜集的数据资料既包括原始资料又包括次级资料。 统计调查在整个统计工作过程中担负着提供基础资料的任务,是统计整理和统计分析的基础和前提,所有的统计分析和统计研究都是在进行统计调查搜集原始资料的基础上进行的。因此,统计调查取得的资料质量直接影响统计工作最终成果的质量。 统计调查的要求: 准确性:指统计资料符合实际情况,准确可靠,严格遵守《中华人民共和国统计法》,杜绝任何形式的弄虚作假,统计调查所收集资料的准确性是衡量统计工作质量的重要标志。可以说准确性是统计工作的生命。 及时性:按照统计调查中规定的时间完成各项调查资料的收集和上报工作,及时满足各部门对统计资料的需求。 如果做不到及时,一方面会贻误统计整理的时间,使决策机关不能及时得到所需信息。另一方面落后于事物发展的统计资料即便准确、完整也没有多大的现实价值。 全面性:根据统计调查的目的,对统计调查单位的资料,不重复不遗漏的进行搜集。如果收集的资料残缺不全,就不能反映调查对象的全貌,就会给统计整理和统计分析带来困难,从而直接影响统计工作的质量。 效益性:整个统计工作都应注重效益,争取以最少的投入获得最大的产出。在统计调查的各个环节都应该测算其成本费用。在保证质量的前提下尽可能的降低成本费用。 统计调查的种类 全面统计报表制度 全面调查 全面调查 普 查 重点调查 非全面调查 非全面调查 典型调查 抽样调查 统计报表制度的特点 1、统计报表制度是根据国民经济和社会发展宏观管理需要而周密设计的,项目和指标都力求和完善、使调查资料具有可靠的基础,保证资料的统一性,便于在全国范围内汇总。 2、依靠行政手段执行的报告制度,要求严格按照规定的时间和程序上报,具有100%回收率 3、采用层层上报、逐级汇总的方式,可以满足各级管理部门对统计资料的需要。 统计报表的分类: 1、按调查对象范围的不同2、按照报送周期不同3、按报送的方式不同4、按填报单位不同(基层报表和综合报表)5、按照实施的范围不同 统计报表制度:是依照国家有关法律的规定,自上而下统一布置,以一定的原始记录和统计台账为依据,按照统一的表式、统一的指标项目、统一的报送时间和报送程序,自下而上逐级提供统计资料的统计调查方式。它是我国长期的统计调查行之有效的一种调查方式。 普查:是专门组织的一次性的全面调查。它主要用于搜集某些不能够或不适宜用定期统计报表搜集的统计资料。 普查的特点 , 特点1:普查是一次性调查,其主要用来调查属于一定时点上的社会经济现象的总 量。由于普查涉及面广、调查单位多,需要耗费大量的人力、物力、财力和时间。 , 特点2:普查一般需要规定统一的时间,以避免调查数据的重复或遗漏,以保 证普查结果的准确性。 , 特点3:普查数据一般比较准确、全面、系统,规范化程度也高。 , 特点4:普查的适用范围比较窄,一般只适用于最基本、最重要的全面情况的调查。 重点调查:是在调查对象中选择在被调查项目的总量中占有绝大比重的重点单位进行调查,通过这些少数重点单位的调查,就可以了解调查对象的基本情况。 这些单位数目不多,但其调查标志值在总体的标志值总和中占有相当大的比重,能大体反映总体的基本情况。 重点调查的调查单位易于确定,它的选择很少受主观因素的影响,调查单位较少、花费少、并且能及时获得所需资料。 三种非全面调查的比较 调查的种类 确 定 调 查 单 位 的 方 法 调查的目的 重点单位在全部单位中只是很小 一部分,但它们的标志值在标志总量中却占 绝大的比重。(客观性) 只是要求掌握总体的重点单位的标志值 较大 重点调查 基本情况。 的 全部单位的标志总量 比重 (定量调查) 在对所研究的对象进行初步分析了解新生事物的发展 典型调查 的基础上,有意识地确定最具有代表性的单趋势和规律。 位。(主观性、定性调查) 根据样本的数据对总 按照随机原则从调查对象中抽取 抽样调查 体做出具有一定可靠一部分单位作为样本。 程度的推算。 统计调查方案设计基本内容 ?确定调查目的;(为什么调查) ?调查对象与调查单位;(向谁调查) ?调查项目与调查表;(调查什么) ?调查的时间和期限; ?制定调查工作的组织实施。 统计数据的分组: 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标 志)把数据分别列入不同的组内。 按数量标志分组是按表现总体数量特征的标志进行的分组。这种分组的目的是通过事物在数 量上的差异来反映事物在性质上的区别。 按数量标志分组主要有两种形式,即单项式分组或组距式分组。 , 开口组如何计算组中值: , 缺少上限: 1、计算假定上限: 假定上限=下限+相邻组的组距 如:假定上限=90+10=100(分); 2、计算组中值: 组中值=(90+100)?2 = 95(分) , 缺少下限: 1、计算假定下限: 假定下限=上限,相邻组的组距 如:假定下限=60,10=50(分); 2、计算组中值: 组中值=(50+60)?2 = 55(分) 次数分布:是指总体按一个或几个标志分组以后,所形成的按一定顺序排列总体各单位在各 组的分布。它是在统计分组的基础上,将总体的所有单位按组归类,并把所有的组及其单位 数按一定顺序排列而成。 众数是指总体中最常见的标志值,也即重复出现次数最多的标志值。 众数的计算方法: 单项数列:出现次数最多的标志值就是众数。 对于分组数据,众数通常采用下面的近似公式计算(下限公式:) ,1 M,L,,io,,,12 MO:表示众数 L:表示众数组的下组限 表示众数组次数与前一组次数之差 表示众数组次数与后一组次数之差 i 表示众数组的组距 对于分组数据,众数通常采用下面的近似公式计算(上限公式:) ,2 M,U,,io,,,12 MO:表示众数 U:表示众数组的上组限 表示众数组次数与前一组次数之差 表示众数组次数与后一组次数之差 i 表示众数组的组距 众数的特点 1. 一组数据中出现次数最多的变量值 2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 在组距数列中,当变量数列不等距分组时,众数的位置不好确定 1.算术平均数的基本公式 总体标志总量 算术平均数, 总体单位总数 2.简单算术平均数 X,X, n式中: —— 算术平均数 X —— 各单位的标志值 n —— 总体单位数 —— 总和符号 3.加权算术平均数 Xf,, X, f, 中: —— 算术平均数 X —— 各组数值 f —— 各组数值出现的次数(即权数) 在掌握比重权数的情况下,可以直接利用权数系数来求加权算术平均数,其公式为: fXf,XX,,, , f,f, 设某厂职工按日产量分组后所得组距数列如下,据此求平均日产量。 按日产量分组 组中值X 工人数f Xf (千克) (千克) (人) 60 以下 55 10 550 60 – 70 65 19 1235 70 – 80 75 50 3750 80 – 90 85 36 3060 90 – 100 95 27 2565 100 – 110 105 14 1470 110 以上 115 8 920 合 计 - 164 13550 Xf,13550,平均日产量X,,,82.62(千克) f164, 4.算术平均数的数学性质 ? 各个变量值与算术平均数离差之和等于零 简单平均数: (X,X),0, 加权平均数: (X,X)f,0, ? 各个变量值与算术平均数离差平方之和 等于最小值 2 简单平均数:最小值()X,,X, 2X加权平均数:最小值()Xf,,, ? 算术平均数的特点 算术平均数适合用代数方法运算,因此运用比较广泛; 易受极端变量值的影响,使 的代表性变小;受极大值的影响大于受极小值的影响; 当组距数列为开口组时,由于组中点不易确定,使 的代表性也不很可靠。 平均数的特点 ? 调和 如果数列中有一标志值等于零,则无法计算; 它作为一种数值平均数,受所有标志值的影响,它受极小值的影响大于受极大值的影响,但 较之算术平均数, 受极端值的影响要小。 四、几何平均数(又称―对数平均数‖) ? 几何平均数的特点 如果数列中有一个标志值等于零或负值,就无法计算 ;受极端值的影响较 和 小,故 比较稳健; 几何平均数的适用范围较小,主要适用于比率平均和速度平均,即计算平均发展速度,进行 时间数列分析等。 六、中位数 Me 中位数的计算方法 ? 由未分组资料确定中位数 n,1 中位数的位置为总体单位数,()n2 ? n为奇数时,则居于中间位置的那个标志值就是中位数。 有五个工人生产某产品件数,按序排列如下: 20,23,26,29,30 n,15,1中位数位置,,,322 即,第3位工人日产26件产品为中位数:M,26(件)e? n为偶数时,则中间位置的两个标志值的算术 平均数为中位数。 上例中,假如有六个工人生产某产品件数,按序排列如下: 20,23,26,29,30,32 n,16,1 中位数位置,,,3.522 这表明中位数是第三、至第四人的平均数: 26,29M,,27.5(件)e2 ? 由单项数列确定中位数 某企业按日产零件分组如下: 按日产零件分组工人数 较小制累计 较大制累计 (件) (人) 26 3 3 80 31 10 13 77 32 14 27 67 34 27 54 53 36 18 72 26 41 8 80 8 合计 80 - - f80,中位数位置,,,40 22 即M,34(件)e ? 由组距数列确定中位数 按日产量分组工人数 较小制累计 较大制累计 (千克) (人) 50 – 60 10 10 164 60 – 70 19 29 154 70 – 80 50 79 135 80 – 90 36 115 85 90–100 27 142 49 100-110 14 156 22 110以上 8 164 8 合计 164 - - f164,中位数位置,,,82 22 即中位数在80,90组距内。 下限公式(较小制累计时用): f164,,79,S,1m22M,X,,d ,80,,10,80.83(千克)eLf36m 上限公式(较大制累计时用): f164,,49,Sm,122M,X,,d ,90,,10,80.83(千克)eUf36m 3.中位数的特点 ? 中位数不受极端值及开口组的影响,具有稳健性。 ? 各单位标志值与中位数离差的绝对值之和 即:或XMXMf,,,,minmin 是个最小值。 ,,ee ? 对某些不具有数学特点或不能用数字测定的 现象,可用中位数求其一般水平。 众数、中位数和均值的比较 众数、中位数和算术平均数之间有着一定的关系,这种关系决定于总体次数分布的状况。当次数分布呈对称的钟形分布时,算术平均数位于次数分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此众数、中位数和算术平均数三者相等。 当次数分布呈非对称的钟形分布时,由于这三种平均数受极端值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间任然有一定的关系。如下图所示 各种平均数之间的相互关系 ,一, XXX、、三者的关系三者的hG 关系 表示为: XXX,,hG XMM、三者的关系 0e(二, 1.当总体分布呈对称状态时,三者合而为一, 2. 当总体分布呈非对称状态时 (1). 如果分布右偏,则XMM,,e0 (2). 如果分布左偏,则XMM,,e0 三、四分位差 Q.D 1.概念: 将总体各单位的标志值按大小顺序排列,然后将数列分为四等分,形成三个分割点(Ql、Qe、Qu),这三个分割点称为四分位数,(其中第二个四分位数Qe就是数列的中位数Me)。 四分位差 Q.D.=Qu-Ql 2.计算: ? 根据未分组资料求Q.D. Ql位置=n/4 Qu位置=3n/4 如果位置是整数,四分位数就是该位置对应的值;如果是在整数加0.5的位置上,则取该位置两侧值的平均数;如果是在整数加0.25或0.75的位置上,则四分位数等于该位置前面的值加上按比例分摊位置两侧数值的差值。 例如:在一个企业中随机抽取9名员工,得到每名员工的月工资收入数据如下: 1500 750 780 1080 850 960 2000 1250 1630 先对数据进行排序,然后计算出四分位数的位置,再计算出四分位数的值。 Ql位置=n/4=2.25,即Ql在第2个数值(780)和第3个数值(850)之间0.25的位置上, 因此Ql=780+(850-780)*0.25=797.5(元) Qu位置=3n/4=6.75,即Qu在第6个数值(1250)和第7个数值(1500)之间0.75的位置上, 因此Qu=1250+(1500-1250)*0.75=1437.5(元) 四分位数的结果表明,至少有25%的数据小于或等于Ql;至少有75%的数据小于或等于Qu,而至少有25%的数据大于或等于Qu。由于Ql和Qu之间包含了50%的数据,就上面的例子而言,可以说大约有一半的员工工资收入在797.5-1437.5元之间。 ? 根据分组资料求Q.D. f3f,, 1) Q, Q的位置的位置,,13442) 若单项数列,则Ql与Q3所在组的标志值就是Q1与Q3的数值; 若组距数列,确定了Q1与Q3所在组后,还要用以下公式求近似值: ff3,,,,SSQQ,,1113 44,,,,,,QLdQLd 111333 ff13 根据某车间工人日产零件分组资料,求Q.D. 按日产零件分组(件) 工人数(人) 累计工人数(人)(较小制) 5-10 12 12 10-15 46 58 15-20 36 94 20-25 6 100 合 计 100 - 100Q的位置 ,,25, 则Q在第二组114 3,100Q的位置,,75, 则Q在第三组334 100,124 ?Q,10,,5,11.41(件) 146 3,100,584 Q,15,,5,17.36(件)336 ?Q.D.,Q,Q,17.36,11.41,5.9531 这表明有一半工人的日产量分布在11.41件至 17.36件之间,且相差5.95件。 3. 四分位差的特点 ? 四分位差不受两端各25%数值的影响,能对开口组数列的差异程度进行测定; ? 用四分位差可以衡量中位数的代表性高低 ? 四分位差不反映所有标志值的差异程度,它所描述的只是次数分配中一半的离差,所以也是一个比较粗略的指标。 四、平均差 A.D. 特点 1、均差是根据全部标志值与平均数离差而计算 出的变异指标,能全面反映标志值的差异程度; 2、平均差计算有绝对值符号,不适合代数方法的 演算使其应用受到限制。 3、利用平均差来判断哪一个更有代表性,在平均数相同的情况下,平均差越大,代表性则越小;平均差越小,说明代表性越强 成数:交替标志只有两种标志表现,我们把总体中具有某种表现或不具有某种表现的单位数占总体单位数的比重称为成数。 例如检测一批产品,合格品占95%,不合格品占5%,这里的95%和5%都是成数。 在同一总体中,对于某一交替标志,具有两种成数且其和为1 交替标志的平均数和标准差 交替标志是一种品质标志,其表现为文字。因此,在计算其平均数时,首先要将文字进行数量化处理,用1表示具有某种标志表现,用0表示不具有某种标志表现。然后以1和0作为变量值,计算加权算术平均数和标准差。 标准差的特点 标准差也是根据全部变量值计算出来的,所以对整个变量值的离散趋势有充分的代表性。 用标准差来判断时,该方法是在平均数相同的情况下,标准差越大,代表性越小;标准差越小,代表性越强。如果两者平均数不相同,就不能用标准差来衡量 离散系数,是各种变异指标与平均数的比率。反映总体各单位标志值的相对离散程度,最常用的是标准差系数。 标准差系数计算公式为: ,V,,100% X五、影响抽样误差大小的因素是: , 总体被研究标志的变异程度。 在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。 , 违反随机性原则。 在抽取样本单位时,由于违反随机性原则,致使所得到的样本的分布结构与总体不一致,从而导致样本指标与总体指标之间产生差异。 , 抽样单位数的多少。 在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。 , 抽样的方法。 在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。 , 抽样的组织形式。 抽样平均误差的作用 , 抽样平均误差是衡量样本指标代表性大小的指标。抽样平均误差越大,说明样本指 标对总体指标的代表性越小,反之亦然。 , 抽样平均误差表明样本指标和总体指标之间的一段距离,这将成为用样本指标推断 总体指标的依据。 与抽样极限误差相关的两个概念是抽样误差率和抽样估计精度 抽样误差率=(抽样极限误差/估计量)*100% 抽样估计精度=100%-抽样误差率 【 例 】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95% 25袋食品的重量 112.5 101.0 103.0 102.0 100.5 102.6 107.5 95.0 108.8 115.6 100.0 123.5 102.0 101.6 102.2 116.6 95.4 97.8 108.6 105.0 136.8 102.8 101.5 98.4 93.3 解:已知,~N(,,102),n=25, 1-, = 95%,z,/2=1.96。根据样本数据计算得: 总体均值,在1-,置信水平下的置信区间为 10,x,z,105.36,1.96,,2n25 ,105.36,3.92 ,,,101.44,109.28 该食品平均重量的置信区间为101.44g~109.28g 【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁) 数据如下表。试建立投保人年龄90%的置信区间 36个投保人年龄的数据 23 35 39 27 36 44 36 42 46 43 31 33 42 53 45 54 47 24 34 28 39 36 44 40 39 49 38 34 48 50 34 39 45 48 45 32 解:已知n=36, 1-, = 90%,z,/2=1.645。根据样本数据计算得: 总体均值,在1-, 置信水平下的置信区间为 s7.77x,z,39.5,1.645,,2n36 ,39.5,2.13 ,,,37.37,41.63 投保人平均年龄的置信区间为37.37岁~41.63岁 已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时) 如下。建立该批灯泡平均使用寿命95%的置信区间 16灯泡使用寿命的数据 1510 1520 1480 1500 1450 1480 1510 1520 1480 1490 1530 1510 1460 1460 1470 1470 解:已知,~N(,,,2),n=16, 1-, = 95%,t,/2=2.131 根据样本数据计算得: , 总体均值,在1-,置信水平下的置信区间为 s24.77x,t,1490,2.131,,2n16 ,1490,13.2 ,,,1476.8,1503.2 该种灯泡平均使用寿命的置信区间为1476.8小时,1503.2小时 【例】某城市想要估计下岗职工中女性所占的比率,随机地抽取了100名下岗职工,其中 65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间 解:已知 n=100,p,65% , 1-, = 95%,z,/2=1.96 p(1,p)p,z,2n 65%(1,65%) ,65%,1.96,100 ,65%,9.35% ,,,55.65%,74.35% 该城市下岗职工中女性比率的置信区间为55.65%~74.35% 总体方差的区间估计 (例分析) 【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间 25袋食品的重量 112.5 101.0 103.0 102.0 100.5 102.6 107.5 95.0 108.8 115.6 100.0 123.5 102.0 101.6 102.2 116.6 95.4 97.8 108.6 105.0 136.8 102.8 101.5 98.4 93.3 解:已知n,25,1-,,95% ,根据样本数据计算得 s2 =93.21 , 2置信度为95%的置信区间为 25,1,93.2125,1,93.21,,,,2,,, 39.36412.401 2,56.83,,,180.39 该企业生产的食品总体重量标准差的的置信区 间为7.54g~13.43g , 【例】一种零件的生产标准是直径应为10cm,为对生产过程进行控制,质量监测人 员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零 件的平均直径大于或小于10cm,则表明生产过程不正常,必须进行调整。试陈述用 来检验生产过程是否正常的原假设和被择假设 解:研究者想收集证据予以证明的假设应该是―生产过程不正常‖。建立的原假设和备择假设为 , 10cm H1 : , 10cm H0 : ,, , 【例】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500克。从消费 者的利益出发,有关研究人员要通过抽检其中的一批产品来验证该产品制造商的说 明是否属实。试陈述用于检验的原假设与备择假设 解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述 。建立的原假设和备择假设为 H0 : , , 500 H1 : , < 500 , 【例】一家研究机构估计,某城市中家庭拥有汽车的比率超过30%。为验证这一估 计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设 与备择假设 解:研究者想收集证据予以支持的假设是―该城市中家庭拥有汽车的比率超过30%‖。建立的原假设和备择假设为 H0 : , , 30% H1 : , , 30% , 【例】一种罐装饮料采用自动生产线生产,每罐的容量是255ml,标准差为5ml。为 检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40罐进行检 验,测得每罐平均容量为255.8ml。取显著性水平,=0.05 ,检验该天生产的饮料容 量是否符合标准要求, , H0 :, = 255 , H1 :, , 255 , , = 0.05 , n = 40 , 临界值(Zc): 检验统计量: ,x,255.8,2550决策:不拒绝 z,,,1.01 ,n540 H0 样本提供的证据表明:该天生产的饮料符合标准要求 , 【例】一种机床加工的零件尺寸绝对平均误差为1.35mm。生产厂家现采用一种新 的机床进行加工以期进一步降低误差。为检验新机床加工的零件平均误差与旧机床 相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。利用这些样 本数据,检验新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低, (,=0.01) 50个零件尺寸的误差数据 (mm) 1.26 1.19 1.31 0.97 1.81 1.13 0.96 1.06 1.00 0.94 0.98 1.10 1.12 1.03 1.16 1.12 1.12 0.95 1.02 1.13 1.23 0.74 1.50 0.50 0.59 0.99 1.45 1.24 1.01 2.03 1.98 1.97 0.91 1.22 1.06 1.11 1.54 1.08 1.10 1.64 1.70 2.37 1.38 1.60 1.26 1.17 1.12 1.23 0.82 0.86 , H0 : , , 1.35 , H1 : , < 1.35 , , = 0.01 , n = 50 , 临界值(c): 检验统计量: 1.3152,1.35 决策:拒绝H0 z,,,2.6061 0.36574950 新机床加工的零件尺寸的平均误差与旧机床相比有显著降低 , 【例】某一小麦品种的平均产量为5200kg/hm2 。一家研究机构对小麦品种进行了 改良以期提高产量。为检验改良后的新品种产量是否有显著提高,随机抽取了36 个地块进行试种,得到的样本平均产量为5275kg/hm2,标准差为120/hm2 。试检验 改良后的新品种产量是否有显著提高, (,=0.05) , H0 : , , 5200 , H1 :, > 5200 , , = 0.05 , n = 36 , 临界值(c): 检验统计量: 5275,5200 拒绝H0 z,,3.75 12036 改良后的新品种产量有显著提高 总体均值的检验(大样本检验方法的总结) 假设 双侧检验 左侧检验 右侧检验 H0 : m =m0 H0 : m ,m0 H0 : m , m0 假设形式 H1 : m ,m0 H1 : m m0 ,x,0 z,, 已知: ,n 统计量 x,,0 z, 未知: ,sn z,z z,,z z,z 拒绝域 ,/2,, 例】一种汽车配件的平均长度要求为12cm,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求, 10个零件尺寸的长度 (cm) 12.2 10.8 12.0 11.8 11.9 12.4 11.3 12.2 12.0 12.3 , H0 : , = 12 , H1 : , , 12 , , = 0.05 , N=10 检验统计量: 11.89,12 不拒绝H0 该供货商提供的零件符合要求 t,,,0.7035 0.493210 【例】一种以休闲和娱乐为主题的杂志,声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平 ,=0.05和,=0.01 ,检验该杂志读者群中女性的比率是否为80%, 它们的值各是多少, , H0 :, = 80% , H1 :, , 80% , , = 0.05 , n = 200 , 临界值(c): 检验统计量: 0.73,0.80z,,,2.475 拒绝H0 该杂志的说法并不属实 0.80,(1,0.80) 200 , H0 : , = 80% , H1 : , , 80% , , = 0.01 , n = 200 , 临界值(c): 检验统计量: 0.73,0.80z,,,2.475 不拒绝H0 该杂志的说法属实 0.80,(1,0.80) 200 某玻璃器皿厂某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行 质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的 抽样平均误差。 ?N,15000 n,150 147 p,,98%150 p(1,p)0.98,(1,0.98),?,,,1.14%p n150 若按不重复抽样方式: p(1,p)n0.98,(1,0.98)150 ,,(1,),,(1,),1.1374%pnN15015000 假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟产品进行检验,用以检查产 品的合格率,检查结果如下 合格率 群数r pi pir 80% 2 0.80 1.6 -0.0996 0.01984 85% 4 0.85 3.4 -0.0496 0.00984 90% 12 0.90 10.8 0.0004 …(太小 不计) 95% 3 0.95 2.85 0.0504 0.00762 98% 3 0.98 2.94 0.0804 0.01939 合计 24 - 21.59 - 0.05669 pr21.59,样本群平均合格率p,,,0.8996 r24, r 2(pp)r,,i0.05669 2i1,?,,,,群间方差0.002362pr24 , 2 ,r0.00236224p?,,,,,,,(1)(1)0.0095(0.95%)或p rR24288 ? 绝对数动态数列的序时平均数 1. 时期数列的序时平均数 aaaaa,,,,L,123na,, nn 式中:序时平均数a ,,,aaaaL各时期发展水平123n n时期项数 2. 时点数列的序时平均数 1) 如果资料是连续时点资料,可分为二种情况 1). 对连续变动的连续时点数列(即未分组资料 2). 对非连续变动的连续时点数列(即分组资料) ? 如果资料是间断时点资料,也可分为 二种情况: 1) 对间隔相等的间断时点资料 某成品库存量如下: 3月31日 4月30日 5月31日 6月30日 库存量(件) 3000 3300 2680 2800 现假定:每天变化是均匀的;本月初与上月末的库存量相等。则各月平均库存量为: 3000,33004月份a,,3150(件)2 3300,26805月份a,,2990(件)2 2680,28006月份a,,2740(件)2 1?第二季度平均库存量,(3150,2990,2740),2960(件)3 上面计算可合并简化为: 3000,33003300,26802680,2800,,222第二季度平均库存量, 3 3150,2990,2740 ,,2960(件)3 2) 对间隔不等的间断时点资料 aaaa,,aa, 231nn,12fff,,,L121n, 222a,n,1 f,ii,1 某城市2003年各时点的人口数 日期 1月1日 5月1日 8月1日 12月31日 人口数(万人) 256.2 257.1 258.3 259.4 则, 该市2003年平均人口数为: 256.2,257.1257.1,258.3258.3,259.4,4,,3,,5222 4,3,5 3094,,257.83(万人)12 某厂7-9月份生产计划完成情况 7月份 8月份 9月份 a 实际产量(件) 1256 1367 1978 b 计划产量(件) 1150 1280 1760 c 产量计划完成% 109.2 106.8 112.4 (1256,1367,1978)/3第三季度平均计划完成程度,(1150,1280,1760)/3 4601 ,,109.8%4190 某厂第三季度生产工人与职工人数资料 日 期 6月30日 7月31日 8月31日 9月30日 a 生产工人数(人) 645 670 695 710 b 全体职工数(人) 805 826 830 845 c 生产工人占全体职工的% 80.1 81.1 83.7 83.1 645710,670,695,第三季度生产工人数占2042.522 , ,,82.18%8058452485.5全体职工的平均比重,826,830,22 一、发展速度 反映社会经济现象发展程度的动态相对指标 报告期水平 发展速度,,100%基期水平 a, i定基发展速度:,na aa0,in,,可分为:,, aai,1,10ia,i环比发展速度: ,ai1,, aaaii,1i 推理: ,,aaa001i, 基年 第一年 第二年 第三年 第四年 第五年 总产值(万元) 270.1 273.80 289.20 314.40 322.30 340.70 环比发展速度(%) - 101.37 101.62 108.71 102.51 105.71 定基发展速度(%) - 101.37 107.07 116.40 119.33 126.14 5平均发展速度 X,1.0137,1.0162,1.0871,1.0251,1.0571 5 ,1.261268,104.75% 5340.75 或 X,,1.261385,104.75%270.1 5 或 X,1.2614,104.75% 相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用符号r表示。 r的测定方法: 若相关系数是根据总体全部数据计算的,称为总体相关系数;若是根据样本数据计算的,则称为样本相关系数.样本相关系数的计算公式为: 为了根据原始数据计算样本相关系数,可将其简化得到下面的计算公式 nxy,(x)(y),,,r, 2222nx,(x)ny,(y),,,, 序 年 x y 号 份 (万元) (万元) 1 1998 500 120 -310 -155 96100 24025 48050 2 1999 540 140 -270 -135 72900 18225 36450 3 2000 620 150 -190 -125 36100 15625 23750 4 2001 730 200 -80 -75 6400 5625 6000 5 2002 900 280 90 5 8100 450 25 6 2003 970 350 160 75 25600 5625 12000 7 2004 1050 450 240 175 57600 30625 42000 8 2005 1170 510 360 235 129600 55225 84600 合计 6480 2200 - - 432400 155000 253300 xy64802200,,x万元y万元,,,810(), ,,,275()nn88 253300xxyy(,)(,),r?,,,0.9822xxyy(,),(,)432400155000,, 经过计算,表明该市工资性现金支出与城镇储蓄存款余额之间存在着高度正相关。 序号 年份 x(万元) y(万元) x2 y2 xy 1 1998 500 120 250000 14400 60000 2 1999 540 140 291600 19600 75000 3 2000 620 150 384400 22500 93000 4 2001 730 200 532900 40000 146000 5 2002 900 280 810000 78400 252000 6 2003 970 350 940900 122500 339500 7 2004 1050 450 1102500 202500 472500 8 2005 1170 510 1368900 260100 596700 合计 6480 2200 5681200 760000 2035300 ,,,,nxy,xy,,,r,2222,,,,nx,xny,y,,,, 8,2035300,6480,22002026400 ,,,0.98221859,11148,5681200,64808,760000,2200 简单直线回归方程的一般形式为: yc=a+bx yc ——因变量的估计值; x ——自变量; a ——回归直线在y轴上的截距; b ——回归直线的斜率,称回归系数,表明x每增加 一个单位,因变量yc的平均变化值 b>0,x与y为正相关 b<0,x与y为负相关 简单直线回归方程建立的步骤为: ? 确定自变量x和因变量y; ? 计算x2、xy、Σx、Σy、Σx2、Σxy; ? 代入公式,先求b,再求a。 举例说明b(回归系数)在经济管理中的作用: 某企业的某种产品月产量与单位成本的关系呈直线关系,用直线回归方程表示是: yc=77.36-1.818x,其中, x表示月产量(千件) y表示单位成本(元); a=77.36(元),表示生产这种产品在单位成本方面的条件; b=-1.818,表示月产品每增加1000件,单位成本平均降低1.818元。 以我国1973,1983年11年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程 为: yc= 9643 - 65x 此时,回归系数b表明,手表平均价格每降低1元/只,销售量约平均增长65万只。一元线 性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素, 因此,现对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展为二元 线性回归模型进行回归分析。 年份 手表销售人均货手表平x1y x2y x1x2 (n=11) 量y(万只) 币收入均价格 x1(元) x2(元/ 只) 1973 650.4 102.1 134 66405.84 87153.6 13681.4 1974 758.4 105.3 134 79859.52 101625.6 14110.2 1975 819.9 110.1 129 90270.99 105767.1 14202.9 1976 1051.7 113.9 131 119788.63 137772.7 14920.9 1977 1149.7 120.4 127 148423.88 146011.9 15290.8 1978 1388.1 131.0 125 181841.10 173512.5 16375.0 1979 1944.4 157.0 123 305270.80 239161.2 19311.0 1980 2534.0 193.5 123 490329.00 311682.0 23800.5 1981 2890.0 210.2 114 607478.00 329460.0 23962.8 1982 3576.0 228.7 89 817831.20 318264.0 20354.3 1983 3898.0 258.7 86 1008412.60 335228.0 22248.2 合计 20660.6 1730.9 1315 3905911.56 2285638.6 198258.0 年份 (n=11) 1973 10 424.41 17 956 1974 11 088.09 17 956 1975 12 122.01 16 641 1976 12 973.21 17 161 1977 14 496.16 16 129 1978 17 161.00 15 625 1979 24 649.00 15 129 1980 37 442.25 15 129 1981 44 184.04 12 996 1982 52 303.69 7 921 1983 66 925.69 7 396 合计 303 769.55 160 039 20660.6,11a,1730.9b,1315b,12,?3905911.56,1730.9a,303769.55b,198258b,12,2285638.6,1315a,198258b,160039b,12 a,,94.0641, ,?b,18.6368 ,1 ,b,,8.0328,2 ?y,,94.0641,18.6368x,8.0328xc12 y,,94.0641,18.6368x,8.0328x c12 b1表明在手表平均价格固定时,人均货币收入每增加,元,手表销售量平均增长18.6368 万只; b2表明在人均货币收入固定时,手表平均价格每上升,元/只,手表销售量平均减少 8.0328万只。 这里的b2比原一元线性回归模型中的同一回归系数b=-65要大得多,是因为一元线性 回归模型只列入了手表平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在手 表平均价格的影响中渗入了居民收入的影响。 一、统计指数 , 又叫指数、经济指数 , 它是一种对比性分析指标 , 是对有关现象进行比较分析的的一种相对比率。 , 反映变量在时间或空间上综合变动的相对数。 如:商品价格指数、居民消费价格指数(CPI)、产品成本指数、工业生产指数 特点:相对数形式 综合反映了复杂现象总体数量变动关系 反映复杂现象总体中各个单位变动的平均水平 二、统计指数的分类 1、按照指数化指标的性质分: (1)质量指标指数 (2)数量指标指数 , 指数化指标:也称指数化因素,指在指数中要反映其数量变化或对比关系的指标。 如:居民消费价格指数中,―价格‖就是指数化指标 工业生产指数中,―产量‖就是指数化指标 成本指数中,―成本‖就是指数化指标 股票价格指数中,―股票价格‖就是指数化指标 一、综合指数的编制原理 原理: 1.引入一个媒介因素——同度量因素,解决不能直接加总的问题。 2.将同度量因素固定于某一时期。 【例】计算甲、乙两种商品的价格总指数 个体价格 价格(元) 销售额(元) 指数 商品 计量 名称 单位 甲 件 8 10 1.25 10000 乙 千克 3 5 1.67 400 合计 — — — — 10400 QP1040010400,11解:K,,,,126.2,P1100004008240QP,,11k1.251.67 p 1,,QP,QP,10400,8240,2160元,,1111kp 已知各大类、中类及代表规格品的有关资料如下:计算消费者价格指数。 平均价格(元) 规格 计量 类别及品名 指数(%) 权数 指数×权数 等级 单位 基期 报告期 总指数 — — — — 100 — 102.68 一、食品类 — — — — 42 43.743 104.15 二、衣着类 — — — — 15 14.319 95.46 三、家庭设备及用— — — — 11 11.297 102.70 品 四、医疗保健 — — — — 3 3.313 110.43 五、交通和通讯工— — — — 4 3.941 98.53 具 1、交通工具 — — — — (60) 62.622 104.37 摩托100型 辆 8450 8580 101.54 <45> 45.693 车 自行660cm 辆 336 360 107.14 <50> 53.570 车 三轮普通 辆 540 552 102.22 <5> 5.111 车 2、通讯工具 — — — — (40) 35.908 89.77 电话中档 部 198 176 88.88 <80> 71.104 机 BP中档 部 900 840 93.33 <20> 18.666 机 六、文教娱乐用品 — — — — 5 5.063 101.26 七、居住项目 — — — — 14 14.490 103.50 八、服务项目 — — — — 6 6.524 108.74 (1)计算交通工具和通讯工具两个小类的价格指数: 交通工具类指数:Ip=?ipω/100=(1.0154×45+1.0714×50+1.0222×5) ?100=104.37% 通讯工具类指数: Ip=?ipω/100=(0.8888×80+0.9333×20) ?100=89.77% (2)、计算中类指数: Ip=?ipω/100=(1.0437×60+0.8977×40) ?100=98.53% (3)、计算居民消费价格总指数: Ip=?ipω/100= (1.0415×42+0.9546×15+1.027×11+1.1043×3+0.9853×4+1.0126×5+1.035×14+1.0874×6) ?100=102.69% 若建立指数体系为: pqpqqp,,,111110,, pqpqqp,,,000100 pqpqpqpqqpqp,,,,,()(),,,,,,110011011000 产品计量产量 出厂价格(元) 产值(元) 名称 单位 q1p0 p1q0 q0 q1 p0 p1 p0q0 p1q1 甲 吨 3000 3600 2000 2200 6000000 7920000 7200000 6600000 乙 米 400 3600 4000 1440000 1680000 1512000 1600000 420 丙 块 4000 4000 16000 20000 20000 4 5 16000 合计 - - - - - 7456000 9620000 8732000 8216000 pq9620000,11总产值指数,,,129.02%pq7456000 ,00 pq,pq,9620000,7456000,2164000(元),,1100 相对数分析: pq9620000,11出厂价格总指数: ,,110.17%pq8732000,01 qp8732000,10产品产量总指数: ,,117.11% qp7456000,00 ?129.02%,110.17%,117.11%绝对数分析: ?由于出厂价格提高: Σp1q1- Σp0q1=9620000-8732000= 888000(元) ?由于产品产量增加: Σq1p0- Σq0p0=8732000-7456000=1276000(元) ? 2164000=888000+1276000(元)
/
本文档为【统计学重点&#46;doc】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索