抽样误差与抽样推断 一、抽样误差
(一)影响抽样误差的因素
抽样误差是指随机抽样调查中样本指标与总体指标之间的差异。抽样误差是随机抽样调查中必然发生的代表性误差即平均误差,通常用符号μ表示。因为抽样调查是以样本代表总体,以样本综合指标推断总体综合指标,所以平均误差是不可避免的。但这种误差一般不包括技术性误差即调查过程中的工作误差。
抽样误差是反映样本代表性大小的指标,影响抽样误差的因素主要有以下三个。
1.样本数目
在其他条件不变的条件下,样本数目越大,抽样误差就越小;反之,样本数目越小,则抽样误差就越大。
...
一、抽样误差
(一)影响抽样误差的因素
抽样误差是指随机抽样调查中样本指标与总体指标之间的差异。抽样误差是随机抽样调查中必然发生的代
性误差即平均误差,通常用符号μ表示。因为抽样调查是以样本代表总体,以样本综合指标推断总体综合指标,所以平均误差是不可避免的。但这种误差一般不包括技术性误差即调查过程中的工作误差。
抽样误差是反映样本代表性大小的指标,影响抽样误差的因素主要有以下三个。
1.样本数目
在其他条件不变的条件下,样本数目越大,抽样误差就越小;反之,样本数目越小,则抽样误差就越大。
2.总体各单位之间的差异程度
在其他条件不变的情况下,总体各单位之间差异程度越大,抽样误差就越大;如果各单位之间差异程度较小,那么,抽样误差值也较小。
3.抽样方法
不同的抽样方法选取的样本对总体的代表性不同,相应的抽样误差也不一样。如分层随机抽样误差比单纯随机抽样误差小,而分群随机抽样误差又比分层随机抽样误差小。
(二)抽样平均误差的计算
抽样方法不同,抽样误差的计算也不一样。但各种不同的抽样方法都是以单纯随机抽样为基础的。因此,从理论上对抽样误差进行介绍时,一般以单纯随机抽样法为基础,以重复抽样误差公式为例,计算抽样平均误差。
在重复抽样条件下,简单随机抽样平均数的抽样平均误差计算公式是:
式中,:抽样平均数的抽样误差;
:总体标准差;
n:样本单位数。
由于在实际调查中,总体标准差σ往往不知道而无法计算抽样误差μ。一般常用样本标准S来代替σ进行计算。样本标准差S可以根据抽样结果来计算,计算公式为:
式中, ——样本观察值;
——样本平均值。
所以,在重复抽样条件下,抽样平均误差的计算公式为:
下面举一简单例子,说明抽样误差的计算。假定某街道有8000户居民,用单纯随机抽样法抽取200户,调查居民对食用油的月均需求量。调查结果表明,每户居民食用油月均需求量为800克,标准差为100克。求抽样平均误差是多少?
已知:n=200,S=100
抽样平均误差:
此次抽样调查的抽样平均误差为7.1克
(三)样本数目的确定
样本数目是指抽样单位数,在随机抽样时必须确定必要的样本数目。样本数目过多,浪费人力、物力、财力和时间,抽样数目过少,会影响调查结果的精确度,造成较大误差,所以确定必要的样本数目极为重要。
在抽样调查中, 样本数目要取多少为宜? 这是一个比较复杂问
,它与人们给定的条件有关。这里所指的条件包括允许误差、置信度等。
①允许误差,是指根据样本指标去估计总体指标所允许抽样误差的范围,用ΔX表示。
②置信度,也叫概度保证度,用符号F(t)表示。它是用一定的概率来保证抽样误差不超过某一允许范围。
③概率度,用t表示。 它与概率保证度F(t)有密切关系,可以根据标准正态分布表,由给定的F(t)查出相应的t。如F(t)=95.45%,t=2,F(t)=98.76%,t=2.5
确定样本数目的公式为:
式中σ、S分别代表总体标准差和样本标准差。
[例4-5]某市调查职工每月食品消费支出情况。 已知职工平均每人月食品消费支出标准差为40元, 若要求允许误差为3元,置信度达95.45%,求样本数目需要多少人? 若其他条件不变, 置信度提高到99.73%,样本数目又需要多少人?
已知:ΔX=3,σ=40,置信度F(t)=95.45%=0.9545,查正态分布概率表t=2,置信度F(t)=99.73%=0.9973,查正态分布概度表t=3
解:当F(t)=95.45%时,
这说明当允许误差为3元,置信度为95.45%时,要抽711人来调查。当F(t)=99.73%时,
这说明当允许误差为3元,置信度上升到99.73%, 需抽1600人调查。
从以上计算可以看出,对抽样调查结果置信度要求愈高,样本的数目就要越多。反之亦然。
二、抽样推断
抽样调查的最终目的,就是要用抽样指标去推断总体指标。这种推断实际上是一种科学估计,抽样推断有两种估计:点值估计和区间估计。
(一)点值估计
点值估计是直接以样本指标作为总体指标的估计值,不考虑抽样误差,仅作近似的估计。
例如,某市有居民5万户,抽取500户调查居民人均生活费月支出为350元, 我们推断该市5万户居民人均生活费月支出也是350元。这就是点值估计,完全不考虑抽样误差。在抽样推断中,点值估计比较少用。
(二)区间估计
它是指在一定的置信度下,根据样本指标和抽样误差去推断总体指标的可能范围。
区间估计是抽样推断的常用方法,它是在考虑到抽样误差的存在情况下以样本指标推断总体指标的过程。区间估计实际上就是要确定总体指标值的置信区间,也就是确定总体指标的可能范围。常见的区间估计是用样本平均数去推断总体平均数的置信区间,其公式如下:
式中,总体平均数;
样本平均数;
抽样平均数误差范围。
以上区间估计公式说明,总体平均数表现为样本平均数加减抽样误差范围的区间值, 而不是一个固定点值。从上述公式中,可以看出,区间估计与三个因素有关:
①样本平均数
②抽样误差
③概率度t,它与置信度F(t)有关。
[例4-6]某市有5万户居民,抽选500户作样本, 调查居民人均月生活费支出为350元,抽样误差为15元,请推断置信度为95%条件下,该市居民人均月生活费支出的置信区间。
根据题意,
可知:
,查正态分布表
解:
在置信度为95%条件下,该市居民人均月生活费支出的置信区间或区间范围是320.6~379.4元。
其其他条件不变,置信度提高到99.49%, 该市居民人均月生活费支出置信区间又是多大?
由F(t)=99.49%,查正态分布表,t=2.8
当置信度为99.49%时,该市居民人均月生活费支出的置信区间为308~392元之间。
以上计算说明,区间估计与置信度的要求关系极大,置信度要求越高,其推断的区间范围(或置信区间)就越大。反之,置信度要求低,其推断的区间范围就小。
附表1. 标准正态分布表
x
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.500 0
0.539 8
0.579 3
0.617 9
0.655 4
0.691 5
0.725 7
0.758 0
0.788 1
0.815 9
0.841 3
0.864 3
0.884 9
0.903 2
0.919 2
0.933 2
0.945 2
0.955 4
0.964 1
0.971 3
0.977 2
0.982 1
0.986 1
0.989 3
0.991 8
0.993 8
0.995 3
0.996 5
0.997 4
0.998 1
0.504 0
0.543 8
0.583 2
0.621 7
0.659 1
0.695 0
0.729 1
0.761 1
0.791 0
0.818 6
0.843 8
0.866 5
0.886 9
0.904 9
0.920 7
0.934 5
0.946 3
0.956 4
0.964 8
0.971 9
0.977 8
0.982 6
0.986 4
0.989 6
0.992 0
0.994 0
0.995 5
0.996 6
0.997 5
0.998 2
0.508 0
0.547 8
0.587 1
0.625 5
0.662 8
0.698 5
0.732 4
0.764 2
0.793 9
0.821 2
0.846 1
0.868 6
0.888 8
0.906 6
0.922 2
0.935 7
0.947 4
0.957 3
0.965 6
0.972 6
0.978 3
0.983 0
0.986 8
0.989 8
0.992 2
0.994 1
0.995 6
0.996 7
0.997 6
0.998 2
0.512 0
0.551 7
0.591 0
0.629 3
0.666 4
0.701 9
0.735 7
0.767 3
0.796 7
0.823 8
0.848 5
0.870 8
0.890 7
0.908 2
0.923 6
0.937 0
0.948 4
0.958 2
0.966 4
0.973 2
0.978 8
0.983 4
0.987 1
0.990 1
0.992 5
0.994 3
0.995 7
0.996 8
0.997 7
0.998 3
0.516 0
0.555 7
0.594 8
0.633 1
0.670 0
0.705 4
0.738 9
0.770 3
0.799 5
0.826 4
0.850 8
0.872 9
0.892 5
0.909 9
0.925 1
0.938 2
0.949 5
0.959 1
0.967 2
0.973 8
0.979 3
0.983 8
0.987 4
0.990 4
0.992 7
0.994 5
0.995 9
0.996 9
0.997 7
0.998 4
0.519 9
0.559 6
0.598 7
0.636 8
0.673 6
0.708 8
0.742 2
0.773 4
0.802 3
0.828 9
0.853 1
0.874 9
0.894 4
0.911 5
0.926 5
0.939 4
0.950 5
0.959 9
0.967 8
0.974 4
0.979 8
0.984 2
0.987 8
0.990 6
0.992 9
0.994 6
0.996 0
0.997 0
0.997 8
0.998 4
0.523 9
0.563 6
0.602 6
0.640 4
0.677 2
0.712 3
0.745 4
0.776 4
0.805 1
0.835 5
0.855 4
0.877 0
0.896 2
0.913 1
0.927 9
0.940 6
0.951 5
0.960 8
0.968 6
0.975 0
0.980 3
0.984 6
0.988 1
0.990 9
0.993 1
0.994 8
0.996 1
0.997 1
0.997 9
0.998 5
0.527 9
0.567 5
0.606 4
0.644 3
0.680 8
0.715 7
0.748 6
0.779 4
0.807 8
0.834 0
0.857 7
0.879 0
0.898 0
0.914 7
0.929 2
0.941 8
0.952 5
0.961 6
0.969 3
0.975 6
0.980 8
0.985 0
0.988 4
0.991 1
0.993 2
0.994 9
0.996 2
0.997 2
0.997 9
0.998 5
0.531 9
0.571 4
0.610 3
0.648 0
0.684 4
0.719 0
0.751 7
0.782 3
0.810 6
0.836 5
0.859 9
0.881 0
0.899 7
0.916 2
0.930 6
0.943 0
0.953 5
0.962 5
0.970 0
0.976 2
0.981 2
0.985 4
0.988 7
0.991 3
0.993 4
0.995 1
0.996 3
0.997 3
0.998 0
0.998 6
0.535 9
0.575 3
0.614 1
0.651 7
0.687 9
0.722 4
0.754 9
0.785 2
0.813 3
0.838 9
0.862 1
0.883 0
0.901 5
0.917 7
0.931 9
0.944 1
0.953 5
0.963 3
0.970 6
0.976 7
0.981 7
0.985 7
0.989 0
0.991 6
0.993 6
0.995 2
0.996 4
0.997 4
0.998 1
0.998 6
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
3
0.998 7
0.999 0
0.999 3
0.999 5
0.999 7
0.999 8
0.999 8
0.999 9
0.999 9
1.000 0
本文档为【抽样误差与抽样推断】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。