为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > (完整版)统计量表汇总

(完整版)统计量表汇总

2021-09-24 3页 doc 87KB 51阅读

用户头像 个人认证

guoliang

暂无简介

举报
(完整版)统计量表汇总名称符号公式意义应用其他众值ModeMo中位值MedianMd均值Meanx离异比率Variation质异指数(Indexofqualifativevariation)v(nfmo)/检验非众数的比例F检验FF(Rss/k)/[Ess/(nk1)]检验用X表小Y的准确性:解释误差/未解释误差多元回归中B是否为0F越大越显著sigF检验sigF检验F的显著水平越小越显著置信度置信度=1-T检验ttRssj(n%Rs...
(完整版)统计量表汇总
名称符号公式意义应用其他众值ModeMo中位值MedianMd均值Meanx离异比率Variation质异指数(Indexofqualifativevariation)v(nfmo)/检验非众数的比例F检验FF(Rss/k)/[Ess/(nk1)]检验用X表小Y的准确性:解释误差/未解释误差多元回归中B是否为0F越大越显著sigF检验sigF检验F的显著水平越小越显著置信度置信度=1-T检验ttRssj(n%Rss2)与F检验类似,t专用二分变量多元回归中bj是否为0T越小越显著SigT检验sigT检验T的显著水平越小越显著相关系数r(XX)(YY)r1一2-2J(XX)?(YY)两个变量之间的相关程度越接近1越显著容限度toleraneetoleranee2Tolerance=1-RiXi作为自变量对其他自变量回归时所得到的余差比例,代表Xi与其他变量信息的重复性。Toleranee越大,Xi与其他变量的信息重复性越小,Xi越独立,对Y的边际解释越大。>0.1VIFVIF=1/toleraneeVIF越小对Y的解释力越大,<10四分位差(interquartilerange)QQ=Q3-Q1差(standarddeviation)SSJ(xx)2/n打门x2(x)2ny表示总对平均量的平均的偏离量。S越小样本越集中标准误s/jn方差(varianee)S2S2越小样本越集中正态分布(normaldistribution)f(x).—exp[(xx)/2s]V2?sX以均值x为中心,在左右两边以S为单位分布标准值(standardscore)Zz(xx)/s表示X偏离x的距离,以S为单位标准正态分布(standardnormaldistribution)1f(x).exp(x/2)J2标准正态分布中,S=1,x=0.尤拉Q系数(Yule'sQ))QQ(adbc)/(adbc)计算二分变量间的关系疋类一疋类(李书70)越大表示关系越强消减误差比例测量法(propertionatereductioninerror)PREPRE=1-E2/E1表明用E2来表示E1所能消减的百分误差李书78PRE越大,表明用E2表达E1的可靠性越高。系数mxmy(MxMy)2n(MxMy)表明用x来表示y所能消减掉的误差比例李书81疋类一疋类或疋类一疋序越大表示x的说明程度越高。y系数ymyMyynMy表明用x来表示y所能消减掉的误差比例。其中x为自变量,y为依变量李书81疋类一疋类或定类一疋序同上Tau-Y相关系数Tau-y+EiE2tauyEi表明两个疋序/疋类变量之间的相关关系李书84疋类一疋类或疋类一疋序越大相关性越高,关系越密切Gamma系数GcNsNdNsNd表示两个定序变量之间的相关关系李书86定序一一定序越接近正负1,相关程度越大dy系数dy,NsNddyNsNdTy表示两个定序变量之间的相关关系李书88定序一一定序越接近正负1,相关程度越大皮尔逊积矩相关系数r(xx)(yy)J(xx)2Q(yy)2表示两个定距变量之间的相关关系李书105定距——定距越大相关性越强相关比率Eta222(yy)2(yyJ2E—2(yy)表示疋类变量与疋序/疋类变量直接的关系疋类疋序疋类疋类卡方检验22(fe)2e表示疋类变量与疋序/疋类变量直接的关系李书183疋类疋类疋类疋序卡方越大表明相互关系越强确定系数R2m2(yy)2R—2(yy)代表回归方程中变量对y的解释能力确定系数应尽量接近1多元相关系数RrJr2表明y与所有x之间的多元线性相关程度R应尽量接近1偏确定系数Ry2•d2RSS(1,2)-RSS(I)Ry21ESS(1)Ry?R:?表示X2对y的边际影响1Ry?偏相关系数rabc严rabracrbcJira:cJirbC在控制Xc的条件下,Xa与Xb的相关程度协方差COV(X,Y)=E[(X-E(X))(Y-E(Y))]考察自变量是否相互独立协方差越大,越不独立反印象相关矩阵矩阵中的值是负的偏相关系数,如果值比较大,则不适合做因子分析。Bartlett球体分析分析是否做因子分析,应该有检验值PV0.0001KMO测量分析是否是合作因子分析,KMO越接近于1越好,0.5以上可以接受。方差分析分析两组或两组以上的数据之间的相似程度。两组数据(x,y)将生成三个平均数:第一组数据平均a;第二组数据平均b;总数据平均c。因此得到三组离差:总离差S1[区c)2(yic)2],组内离差S:区a)2(yib)2,以及组间离差S3S1s2虚拟变量当一个变量X,共有N(比如是5)个值,例如,民族为汉、蒙、回、满、藏时,不能够将之变成定序变量,而且在统计中出现的非整数无法解释(如,3.5究竟表示五个变量之间怎样的比例,就完全无法解释了)。因此必须将有五个值的一个变量变成五个不冋的变量,分别为汉族=0/1,家古族=0/1,回族=0/1,满族=0/1,臧族=0/1,虽然变量的数目变多了,但是关系变清晰了。但五个虚拟变量其实没有必要,因为不存在五个变量,即X1X5都为0的情况。所以删去其中任何一个变量,只留下N-1个变量,当四个变量都为0时,第五个必为1。***虚拟变量必为0/1变量!抽样分布标准误一/品x二项分布标准误xJ1F'nStandardnormaldistributionZ=x对应的值表示当Z=x时对应的的0—x之间的总面积的大小S,0.5S—2基本公式:222(1)D(x)E[xE(x)]E(x)E(x)旧闻梳理:k1,泊松分布:PXk—,k为正整数;k!标准正态分布概率:f(x)正态分布概率为:f(x)1e^、2se正态分布的可加性:X~N(「2i),Y~N(Y~N(ke:enn/(1-)e(n)k!nk泊松公式:当n很大,p很小时,有C:pk(1p)nke,其中叩k!1tGamma函数:()tedto(,)f(x)()e,0x1t()tedt0,其中有Gamma分布:当f(y)的概率密度满足如下公式时,即为Gamma分布:Gamma分布依据k值的不同,曲线如右。k22222,卡方分布:对于独立的标准正态分布函数X,函数Z=ZXkdk满足分布,且有Xj,0其中X~N(0,1)卡方分布的密度函数为f(y)(齐)。卡方分布的数学期望与方差为:E(2)E(X2)[D(XJE2(Xj)][D(XJ0](1)nD(2)D(X:)[E(X:)E2(X:)][31]⑵2n,其中,有E(x4)x4[x3f(x)]0f(xi)x4f(x)dxk23xf(x)(多次分部积分法)dxdx1J当n足够大时,有2(n)—(z.2n1)2卡方分布的可加性,2(n1)2(n2)~2(nin2)3,t检验需要考虑自由度df,而Z检验不需要,因为z检验时的标准误中的是总体,与sample大小n无关。而T检验中的s是样本参数,与sample大小有关。4,X的n次方期望就是密度函数乘x5积分!!!因为x的分布不随其n次方改变,因而密度函数不变,只是x增大而已。5,t分布的方差为v/(v-2),v为自由度(通常v=n-1),其期望为0,具体证明:卡方分布的方差很好计算因为自由度为N的卡方分布其实是系数为N/2,1/2的Gamma分布而Gamma函数的性质让我们很容易计算出X的任何阶期望具体是:X的n次方期望就是密度函数乘x5积分这时你把x5放进密度函数你的积分函数里面就得到x的N/2-1+n次方也就是说系数从N/2变成了N/2+n同样你把分式下面的Gamma函数和1/2A(N/2)提到积分外部然后添加需要的系数(使得该式变为系数为N/2+n和1/2的Gamma分布对1积分为一)然后除以你添加的系数最后积分外部的所有系数就是你的xAn的期望了.设X服从N(0,1)Z服从自由度为N的卡方分布X和Z独立那么D(T)=E(TA2)-E(T)A2其中E(T)=E(X/sqrt(Z/N))=E(X)*E(1/sqrt(Z/N))=0所以D(T)=E(TA2)=E(XA2/(Z/N))=E(XA2)*E(N/Z)=N*E(XA2)*E(1/Z)其中E(XA2)=1E(1/Z)=1/(N-2)(通过密度函数计算同第一卡方分布的1/2次方期望可以很容易求出)所以D(T)=N/(N-2)6,t分布的概率密度函数为:h(t)(n1)/2.n(n/2)2(n1)/2t12/2—,t函数不是正态分布,但当n趋近于无穷大时,可有:limh(t)^=et/2,即接近于标准正态分布。n<2T分布的表达式为:X2t,其中X〜N(O,1),丫〜(n)常Y/n7,F分布的概率函数为:(x)n./2(叫/2)11X1(n./2)(n2/2)[1(n.x/n2)]®n2)/2[(mn2)/2](n!ri2)F的定义函数为F咒,其中°与V分别为卡方分布,即为2(nJ,22(n2),即F分布可以用来描述两个分布的比。有:当F~F(n^n?),必有1/F~F(nzE)。F(口,n2)表示,在n确定的情况下,F点右方曲线所封闭的面积为1-a。因此,F函数有两个自由度厲和n2,8,Z、T、2、F、的一些定理。(1),正态总体为N(,2),样本为X,X为样本均值,有X~N(,2/n),则有以下定理:定理A:2(nVs〜2(n1),且X与S相互独立。(证明需用到矩阵,见《概率论与数理统计》P146)定理B:Xt(n1)。(证明见《概率论与数理统计》P143)S/-n22——Xi~N(1,1),Y~N(2,2)相互独立,其均值分别为X与Y,方差为S1与S2,则有:S2/S2~F(n11,n21),且当1=2=时,有氏1)(Y12/I2))11Sw、n2证明,由N函数与2函数的可加性可知,有:(XY)~n(i22,——」),因而有U=n1n2(XY)(~t(njn212)~N(0,1)。1n22)。其中,有SW(ni庸仇1)S22(n21)S22(nin22)。则有t(n1+n2-2)。V/Jrb2)即为(X1)(Yifl2)~t(n1压2)n29,样本均值的方差=总体方差/n的证明(即标准误的证明)D(x)。nx11标准误(standarderror)=D(x)D(一)2D(x)2(nD(x))nnn因此有间,不受样本大小影响的标准间距,(或者说是实验组与对照组之间的总体标准间距)。ES没有具体的统计意义,也不实际存在,其值为?Z。因为vnES本身不受样本大小的影响,因而可以自由在不同大小的样本中进行变换,是一个总体恒量。此时的对照组总体的标准差满足Z分布的可加性,有XY~((12),12),选取样本之后的样本总量(DF)为m门22,其标准误为S————(ni°S一(n21)S2,这里用到了样本标准误S,之所以是n-1而不是n,是因为为保证样本均值为卩,已经去掉了一个TOC\o"1-5"\h\zni压2m门22n1自由度。因而有:ES=(XY)(12)=(x1)(Y2)=(X1)(Y2)*11=tSwSh1Vn1rh卜乱w\n1n2』n2证明秩和检验的均值和方差:秩和检验中在数一组有ni个,二组有n2个,则有这些数的分布为1至(ni+n2)。现在检验数组I的秩和的均值和方差,得到,其秩的和分布于{(ni1)ni,[n2ni(n2niE1)]ni},22是一个等差数列,等差为I(即自然数列)。则有其均值为:Eg)ni(mn2i)2[(nii)ni[门2ni(压mmi)]m]/2[22]其方差为D(nJE(ni2)E2(nJE(n2)[ni(nin22i)(2{[-(2(mi)nii)((nii)n,gi)ni-[——2——2]}/(nin26八小i(nin2I)-[—厂i)]2mn2(mn2i)I2i2,Dependentsamplettest方法(关联样本t检验):A,将相互对应的个体一一对应,求出其差值为D(differeneescores);B,求出D的平均值Md,其理论值为。C,求出D的方差为Sd2,其标准误为SmdD,构建t函数,t值为:tMD——,其自由度为dfnp1构建WilcoxonTm检验的方法A,将相互对应的个体一一对应,求出差值D,并根据D的绝对值|D|开始排行,由1开始,直到最大;其中为0者全部去掉,不参与排序。由此得到的即为Rank值,Rank的最大值为np;B,根据D的正、负将Rank分为R+与R—,任何一组都可以用作计算。C,任何一组中,有其均值为Tm叶(np1)4其标准差为Tm(2np1)(np24D,构建Tm检验的z函数,得到zTm两样本对比方差的方法A,对两样本分别求方差,为S;与S;,两样本大小分别为n1与n2;B,求F值为:FS^S;,自由度为(n1,n2);C,求对应自由度与a的F值,如果所求F在其右方,为拒绝域,左方为接受域。与其他分部不同,F分部的中心值是1,即两个方差相同。F值越大越右偏,一般只计算F大于1的状态。多样本的方差对比与ANOVA、多样本的方差对比。多个样本Xa,Xb,Xc贩XK组成总样本X,j为组数,i为每组个体数。j最大为k。每个方差的个体数为:ja,b,c贩穔且:iN。因此我们可以定义每一个个体为Xji,每组j个个体,组数为i,此时对这些样本而言,形成三个方差:每组的平均数为Xj总平均数为X,共有k个组,N个个体。方差一:总体方差SST(X..)2N(X)21.j方差二:组内方差SSW:1(x.j)2j(Xy方差三:组间方差SSB:j(X)j(X)则有SSTSSWSSBSSW表示组内的差异,SSB表示组间的差异。如果各个样本来自同一个总体,则组间与组内就是一个概念因而没有分别,因此有FMSBSSB/(K1)MSWSSW/(NK)接下来可以用F分布的方法来测量F值,确定是否可以接受MSB=MSW,从而是否能接受各样本方差一致。二、多样本中任何两个样本均值的对比protectedttest。H0失败的那个异己项。为验证任何两个样本之间的均值是否一致,将构造(M1M2)0且有SMtM2Protectedttest只有在HO被推翻在之后才能使用,目的是找出导致t函数。此时:M2三、关联抽样的ANOVA在关联抽样中,不仅像独立抽样中分成了组,还分成了“块”,每一群相关联的个体构成一个块“block”在方差分析时,方差表示数据之间离散的差异程度,方差越大差异性越大。而且因为方差是平方和因此不会出现正负中和的现象,SSBSSTk221njXjI即方差之间的离散和总有一个SST,表示总体离散和,大于其他任何离散和,且为其他离散和的总和。构成以下方差:i21x2Nx。表示所有离散的总和。其自由度为N,为所有个体总量Nx。SSE构建了k个全新的样本,每个样本中的个体一摸一样,都是其平均数,即这样的样本中组内没有任何离散,因此SSB计算出的是组间的离散。其自由度为k1,k为组数。SSBIi21BI2k—2Nx。SSB其实只构建了一个样本,共i个个体,每个个体都是k组中对应个体的平均数,即这一SSESST其实个样本中没有组内差别也没有组间差别,只有块间差别。其自由度为BI1i1SSBSSB为余差项,是SSBWSSB不能覆盖的部分,表示的是没有解释的离散程度,其自由度为(n1)?(k1)关联抽样的ANOVA为FMSBI/MSE.SSBISSESSW,因此F表示的其实是,在组内离散中,块造成的离散与余差之间的比例。四、多样本方差对比中的Kruskal-WallisH检验:非参数分析forindependentsamplesKruskal-WallisH检验是秩和检验的升级。秩和检验只用来检验均值而此时可以用来检验方差。首先按照秩和检验的方法将数据排序,得到组数为j,j最大为k,每组个体数为nj,且有总个体数诶njN。每一组的秩和为Tj,得到:2Ssb:卫_N(n1)为组间方差。则有1山4H12SSb~2(k1),k为组数。H是一个卡方分布,其最大概率值为df本身。N(N1)2由得到的H值进行对比,若在点右侧即为拒绝,表明方差不统一,总体间有差异。如下:五、多样本方差对比中的FriedmanFr检验:非参数分析fordependentsamplesFriedmanFrtest适用于Dependet样本的方差分析,但ANOVA条件没有达到时。方法个体依然分为组与块,块为对应的横行,组为对应的纵列。对每一块的个体单独进对每一列进行秩和运算有ssb行秩运算,因而每一行都必有j个秩,得到「为每一个样本的秩和。k2Ebl(k)(k1)bl4Fr12SSBk(k1)2(k1)FriedmanFr非参数检验的目的在于对每一块,即每一个可比较的实验组单独列秩,从而保证检验的合理性。二因素实验的方差分析二因素实验中的方差分析应对每一个因素而存在。二因素中,一个因素由行表示,一个由列表示,因而产生五个方差或离散分布:总方差SST,行方差SSR,列方差SSC,以及行列方差SSRC和组内方差SSSW。其中组内方差又是胞内方差,因为n个行与k个列共同产生了n*k个细胞。(参见dataP431)N2—2SST“X2Nx1ji—2SSRnr(Mrx)—2SSCnc(MCx)SSWSS(cell),为所有细胞内方差之和;SSCRSSTSSRSSCSSW有:MSRSSR/R1MSCSSC/C1MSWSSW/(NRC)MSRCSSRC/(R1)(C1)以上分母均为相应的自由度。总自由度为N1.其中nR为每一行的个体数,nC为每一列的个体数MR为每一行的平均值,MC为每一列的平均值JMSW2W,n为每一个细胞内的个体数。17,回归分析中的t检验,有相关方差,且有标准误,则可构建t函数为:/Sm,以确定是否为0.18,回归中的correlation分析,有JSSiX)SS(Y)即为皮尔逊集聚;其显著性由t检验可测,有:r-0t=肩=.:—2,其中"脱-2
/
本文档为【(完整版)统计量表汇总】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索