为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

第六章 方差分析

2018-06-21 142页 ppt 2MB 26阅读

用户头像 个人认证

....

暂无简介

举报
第六章 方差分析第六章方差分析方差分析(Analysisofvariance,ANOVA)又叫变量分析,是英国著名统计学家R.A.Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。方差分析的基本功能试验因素(experimentalfactor):试验中所研究的影响试验指标的因素叫试验因素。因素水平(leveloffactor):试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。试验处理(treatment):事先设计好的实施在实验...
第六章 方差分析
第六章方差方差分析(Analysisofvariance,ANOVA)又叫变量分析,是英国著名统计学家R.A.Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。方差分析的基本功能试验因素(experimentalfactor):试验中所研究的影响试验指标的因素叫试验因素。因素水平(leveloffactor):试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。试验处理(treatment):事先设计好的实施在实验单位上的具体项目就叫试验处理。试验单位(experimentalunit):在实验中能接受不同试验处理的独立的试验载体叫试验单位。重复(repetition):在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。第一节方差分析的基本原理二、数学模型一、方差分析的基本思想、目的和用途三、平方和与df的分解四、统计假设的显著性检验五、多重比较观测值不同的原因处理效应(treatmenteffect):处理不同引起试验误差:试验过程中偶然性因素的干扰和测量误差所致。方差:又叫均方,是差的平方,是表示变异的量。在一个多处理试验中,可以得出一系列不同的观测值。方差分析的基本思想总变异处理效应试验误差方差分析的目的确定各种原因在总变异中所占的重要程度。方差分析的用途1.用于多个样本平均数的比较2.分析多个因素间的交互作用3.回归方程的假设检验4.方差的同质性检验1.用于多个样本平均数的比较2.分析多个因素间的交互作用二、数学模型假定有k组观测数据,每组有n个观测值,则共有nk个观测值…用线性模型(linearmodel)来描述每一观测值:xij=μ+τi+εij(i=1,2,3…,kj=1,2,3…,n)μ-总体平均数τi-处理效应εij-试验误差xij-是在第i次处理下的第j次观测值二、数学模型对于由样本估计的线性模型为:xij=x+ti+eij处理间平均数的差异是由处理效应引起的:处理内的变异是由随机误差引起:1n1n每一个处理n个观测值离均差平方和累加:0(xi–x)2nn11+∑1n总平方和SST处理内或组内平方和SSe处理间或组间平方和SSt把k个处理的离均差平方在累加,得总平方和=处理间平方和+处理内平方和SST=SSt+SSeSST=∑∑(x-x)21n1kSST=∑x2-C令矫正数C=,则:总平方和:SST=∑x2-C处理内平方和:SSe=SST-SSt总自由度也可分解为处理间自由度和处理内自由度:dfT=dft+dfe总df处理间df处理内df自由度dfT=nk-1dft=k-1dfe=dfT-dft=nk-1-(k-1)=nk-k=k(n-1)根据各变异部分的平方和和自由度,可求得处理间方差(st2)和处理内方差(se2):平方和自由度方差处理间处理内总变异四、统计假设的显著性检验——F检验  确定各种原因(处理效应、试验误差)在总变异中所占的重要程度。处理间的方差(st2)可以作为处理效应方差的估计量处理内的方差(se2)可以作为试验误差差异的估计量方差分析的目的:F检验从第三章我们已经知道,从一正态总体(μ,σ2)中随机抽取两个样本,其样本方差s12与s22的比值为F:F=  其F分布曲线随着df1和df2的变化而变化。由于F值表是一尾的(F值的区间〔0,+∞)),一般将大方差作分子,小方差作分母,使F值大于1,因此,表上df1的代表大方差自由度,df2代表小方差自由度。  用处理效应的方差(st2)和实验误差的方差(se2)比较时,我们所做的无效假设是假设处理效应的变量和实验误差的变量是来自同一正态总体的两个样本,因此处理效应的方差(st2)和实验误差的方差(se2)的比值就是F值,即=方差分析F检验在进行不同处理差异显著性的F检验时,一般是把处理间方差作为分子,称为大方差,误差方差作为分母,称为小方差。无效假设是把各个处理的变量假设来自同一总体,即处理间方差不存在处理效应,只有误差的影响,因而处理间的样本方差σt2与误差的样本方差σe2相等:Ho:σt2=σe2HA:σt2≠σe2F<F0.05P>0.05处理间差异不显著F>F0.05P<0.05处理间差异显著F>F0.01P<0.01处理间差异极显著否定Ho否定Ho接受Ho  我们确定显著标准水平α后,从F值表中查出在dft和dfe下的Fα值F检验五多重比较多重比较(multiplecomparisons)要明确不同处理平均数两两间差异的显著性,每个处理的平均数都要与其他的处理进行比较,这种差异显著性的检验就叫多重比较。  统计上把多个平均数两两间的相互比较称为多重比较。概念五、多重比较  LSD法的实质是两个平均数相比较的t检验法。  LSR法克服了LSD法的局限性,采用不同平均数间用不同的显著差数标准进行比较,它可用于平均数间的所有相互比较。(一)最小显著差数法(LSD法)1.检验的方法(1)先计算出达到差异显著的最小差数,记为LSDα(一)最小显著差数法(LSD法)1.检验的方法(1)先计算出达到差异显著的最小差数,记为LSDα当n1=n2时:平均数差数标准误的计算公式:处理内方差1.检验的方法(2)再用两个处理平均数的差值绝对值与LSDα比较:拒绝Ho接受Ho(一)最小显著差数法(LSD法)2.结果表示方法(一)最小显著差数法(LSD法)首先将全部平均数从大到小依次排列。然后在最大的平均数上标字母a,将该平均数与以下各平均数相比,凡相差不显著的(<LSDα)都标上字母a,直至某个与之相差显著的则标字母b。再以该标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母a的右边加标字母b。然后再以标b的最大平均数为标准与以下未曾标有字母的平均数比较,凡差数差异不显著的继续标以字母b,直至差异显著的平均数标字母c,再与上面的平均数比较。如此重复进行,直至最小的平均数有了标记字母,并与上面的平均数比较后为止。(一)最小显著差数法(LSD法)标记字母法  在各平均数间,凡有一个相同标记字母的即为差异不显著,凡具不同标记字母的即为差异显著。  差异极显著标记方法相同,但用大写字母标记。(一)最小显著差数法(LSD法)处理苗高平均数(cm)差异显著性0.050.01药剂129药剂223药剂318药剂414不同药剂处理水稻苗高平均数比较(LSD法)abccAABBCCLSD0.05=4.40(cm)LSD0.01=6.17(cm)梯形比较法  又叫三角形法,是将各处理的平均数差数按梯形列于表中,并将这些差数和LSDα值比较:差数>LSD0.05差异显著*差数>LSD0.01差异极显著**差数≤LSD0.05差异不显著(一)最小显著差数法(LSD法)(二)最小显著极差法(LSR法)  是指不同平均数间用不同的显著差数标准进行比较,可用于平均数间的所有相互比较。新复极差法(SSR)(1)按相比较的样本容量计算平均数标准误:(2)根据误差方差se2所具有自由度dfe和比较所含平均数个数M,查SSR值(附表6),然后算出最小显著极差值(LSR值)。(3)将各平均数按大小顺序排列,用各个M值的LSRα值,检验各平均数间极差的显著性。SSR法又称Duncan法。无效假设H0为:μA–μB=0  也称Newman-keuls检验,方法与新复极差法相似,其区别仅在于计算最小显著极差LSRα时不是查SSRα,而是查qα值(附表7)q0.05=3.08,q0.01=4.32。同理可查M=3,M=4时的qα值,算出最小显著极差LSR。q-检验法在实际计算中:对于精度要求高的试验——q检验法一般试验——SSR检验法试验中各个处理均数皆与对照相比的试验——LSD检验法方差分析的基本步骤(1)将样本数据的总平方和与总自由度分解为各变异因素的平方和与自由度;(2)列方差分析表进行F检验,以弄清各变异因素在总变异中的重要程度;(3)对各处理平均数进行多重比较。第二节单因素方差分析单因素方差分析  在试验中所考虑的因素只有一个时,称为单因素实验。单因素方差分析是最简单的一种,它适用于只研究一个试验因素的资料,目的在于正确判断该试验因素各处理的相对效果(各水平的优劣).单因素方差分析组内观测数目的不同组内观测次数相等方差分析组内观测次数不相等的方差分析组内观测次数相等的方差分析是指在k组处理中,每一处理皆含有n个观测值,其方差分析方法前面已做介绍,这里以方差分析表的形式给出有关计算公式:  测定东北、内蒙古、河北、安徽、贵州5个地区黄鼬冬季针毛的长度(mm),每个地区随机抽取4个样本,测定的结果如表,试比较各地区黄鼬针毛长度差异显著性。地区东北内蒙古河北安徽贵州合计132.029.225.223.322.3232.827.426.125.122.5331.226.325.825.122.9430.426.726.725.523.7126.4109.6104.199.091.4=530.531.6027.4026.0324.7522.8526.533997.443007.992709.982453.162089.6414258.21在这里,k=5,n=4。(1)首先计算出  ,及   ,并列于表中。(2)计算出离均差平方和与自由度:=186.7-173.71=12.99=20-1=19=5×(4-1)=15(3)计算方差:=5-1=4(4)进行F检验:  查F值表,得F0.05(4,15)=3.06,F0.01(4,15)=4.89,故F>F0.01,P<0.01,说明5个地区黄鼬冬季针毛长度差异极显著。结果做成方差分析表:不同地区黄鼬冬季针毛长度方差分析表变异来源SSdfs2FF0.05F0.01地区间地区内173.7112.9941543.430.8750.15**3.064.89总变异186.7019  为了确定各个地区之间的差异是否显著,需要进行多重比较。这里用最小显著差数法(LSD)进行检验。  查t值表,当dfe=15时,t0.05=2.131,t0.01=2.947,于是有:LSD0.05=2.131×0.658=1.402LSD0.01=2.947×0.658=1.939地区平均数差异显著性α=0.05α=0.01东北内蒙古河北安徽贵州31.6027.4026.0324.7522.85abbccdABBCCDD  结果表明,东北与其它地区,内蒙古与安徽、贵州,河北与贵州黄鼬冬季针毛长度差异均达到极显著水平,安徽与贵州差异达到显著水平,而内蒙古与河北、河北与安徽差异不显著。LSD0.05=1.402LSD0.01=1.939有时由于试验条件的限制,不同处理的观测次数不同,k个处理的观测次数依次是n1、n2、…、nk的单因素分组资料,前面介绍的方差分析方法仍然可用,但由于总观测次数不是nk,而是次,在计算平方和时公式稍有改变。组内观测次数不相等的方差分析  在作多重比较时,首先应计算平均数的标准误。由于各组内观测次数不等,因此应需先算得各ni的平均数n0:各个处理的样本容量用于LSR检验用于LSD检验需要指出的是,不等观测次数的试验要尽量避免,因为这样的试验数据不仅计算麻烦,而且也降低了分析的灵敏度。第三节   二因素方差分析因素(factor):也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验条件。固定因素:在试验中可以人为地加以调控的因素,因素的水平是经过特意选择的,每个水平的效应值是固定的,试验重复时可得到相同的结果;因素一、相关概念例如:几个不同的实验温度,几个不同的化学药物或一种药物的几种不同浓度,几个作物品种以及几个不同的治疗方案和治疗效果等。例:为了探讨不同窝的动物的出生体重是否存在差异,随机选取4窝动物,每窝中均有4只幼仔随机因素:不能人为调控的因素(气象、环境等),因素的水平是从该因素水平总体中随机抽出的样本,效应值不是常量,是随机变量。从随机因素的a个水平所得到的结论,可以推广到这个因素的所有水平上。固定效应(fixedeffect):由固定因素所引起的效应。一、相关概念随机效应(randomeffect):由随机因素引起的效应。处理饲料中能量与蛋白质的水平组合protein能量高低高低高高低高高低低低对多因素试验而言,处理就是指水平与水平的组合一、相关概念  定义:是指对试验指标同时受到两个试验因素作用的试验资料的方差分析。固定模型二因素都是固定因素随机模型二因素均为随机因素混合模型一个因素是固定因素,一个因素是随机因素二因素方差分析主效和互作主效应(maineffect):  各试验因素的相对独立作用互作(interaction):  某一因素在另一因素的不同水平上所产生的效应不同。因素间的交互作用显著与否关系到主效应的利用价值  二因素间是否存在交互作用有专门的统计判断方法(Tukey法),有时也可根据专业知识判断。  如果交互作用显著,则各因素的效应就不能累加,最优处理组合的选定应根据各处理组合的直接表现选定。有时交互作用相当大,甚至可以忽略主效应。  如果交互作用不显著,则各因素的效应可以累加,各因素的最优水平组合起来,即为最优的处理组合。二因素方差分析无重复观测值的二因素方差分析具有重复观测值的二因素方差分析无重复观测值的二因素方差分析  依据经验或专业知识(Tukey法),判断二因素无交互作用时,每个处理可只设一个观测值,即假定A因素有a各水平,B因素有b个水平,每个处理组合只有一个观测值。无重复观测值的二因素方差分析两因素无重复模型中交互作用的判断(Tukey法)方法:将残余项平方和()分解为具有1自由度的非累加(交互作用)成分和具(a-1)(b-1)-1自由度的误差成分,公式为:,df=1和,df=(a-1)(b-1)-1或令计算时,拒绝零假设。若有交互作用,F有偏大趋势。故用上单尾分位数检验。因素A因素B总和Ti.平均数B1B2…BbA1x11x12…x1bT1.A2x21x22…x2bT2.…………………Aaxa1xa2…xabTa.总和T.jT.1T.2…T.bT平均数…无重复观测值的二因素分组资料模式二因素方差分析的线性模型  因素间不存在交互作用,所以二因素方差分析观测值的线性模型是xij=μ+αi+βj+εij  αi和βj是A因素和B因素的效应,可以是固定的,也可以是随机的,且   ,εij是随机误差,彼此独立且服从N(0,σ2)。i=1,2,…,a;  j=1,2,…,b(1)平方和的分解为:(2)与平方和相应的自由度的分解为(4)F值的计算:(3)各项的方差分别为变异来源DFSSMSFA因素a-1B因素b-1误差(a-1)(b-1)总变异ab-1几点注意事项:☆当交互作用存在时,对固定模型若不设置重复,则无法把SSAB与SSe分开,这样将无法进行任何统计检验。因此在固定模型中有交互作用时,不设置重复的试验是无意义时。☆对固定模型来说,结论只能适用于参加实验的几个水平,不能任意推广到其他水平上去。二因素方差分析无重复观测值的二因素方差分析具有重复观测值的二因素方差分析具有重复观测值的二因素方差分析具有重复观测值的二因素方差分析  具有重复观测值的二因素试验的典型设计是:假定A因素有a水平,B因素有b水平,则每一次重复都包括ab次实验,设试验重复n次。A因素B因素总和Ti..平均Xi.B1B2…BbA1X111X121…X1b1T1..X1.X112X122…X1b2︰︰︰︰Tij.T11.T12.T1b.A2X211X221…X2b1T2.X2.X212X222…X2b2︰︰︰︰Tij.T21.T22.T2b.︰︰︰︰︰︰︰AaXa11Xa21…Xab1Ta.Xa.Xa12Xa22…Xab2︰︰︰︰Tij.Ta1.Ta2.Tab.T.j.T.1.T.2.…T.b.T...X  二因素具有重复观测值的方差分析用下面线性模型来描述:xijk=μ+αi+βj+(αβ)ij+εijkA因素第i水平,B因素第j水平和第k次重复的观测值总平均值A因素第i水平的效应B因素第j水平的效应αi和βj的交互作用随机误差模型中εijk彼此独立且服从标准正态分布(0,σ2)  因试验共有n次重复,试验的总次数为abn次。方差分析步骤和前面介绍的相类似,唯一不同的是F检验的方法。(1)平方和的分解为:B处理的样本容量A处理、B处理和A×B互作的平方和试验重复数A处理的样本容量(3)各项的方差分别为(2)自由度的分解为(4)F检验:(a)固定模型:在固定模型中,αi,βj及(αβ)ij均为固定效应。在F检验时,A因素、B因素和A×B互作项均以Se2作为分母。固定效应模型方差分析表(A、B为固定因素)  为了研究某种昆虫滞育期长短与环境的关系,在给定的温度和光照条件下在实验室培养,每一处理记录4只昆虫的滞育天数,结果列于表中,是对该进行方差分析。光照(A)温度(B)250C300C350C5h·d-1143138120107101100808389931017610h·d-1961037891796183598076616715h·d-1798396986071786467587183不同温度及光照条件下某种昆虫滞育天数  由于温度和光照条件都是人为控制的,为固定因素,可依固定因素分析。将表中数字均减去80,整理得下表光照(A)标本号温度(B)250C300C350C5h·d-112346358402721200391321-4271188443910h·d-112341623-211-1-193-210-4-19-13-2648-38-3615h·d-11234-131618-20-9-2-16-13-22-93-5236-47-41272-41-38193(1)平方和的分解为:(2)自由度的分解为结果列入方差分析表变异来源dfSSs2FF0.05F0.01光照间25367.062683.5321.94**3.355.49温度间25391.062695.5322.03**3.355.49光照×温度误差427464.943303.25116.24122.340.952.734.11总变异35295.73  F检验结果表明,浓度间和时间间的F值大于F0.01,它们的差异极显著,即昆虫滞育期长短主要决定于光照和温度,而与两者之间的互作关系不大。某昆虫滞育天数方差分析表  要了解各种光照时间及温度对滞育期的影响,需进行不同光照间及不同温度间的多重比较,其方法可参照前面例子进行,但平均数标准误的计算为:光照(A)间平均数标准误   ,温度(B)间平均数标准误A处理的样本容量B处理的样本容量M23SSR0.052.903.05SSR0.013.934.10LSR0.059.269.74LSR0.0112.5513.09多重比较(SSR检验):光照(A)间平均数标准误     查SSR值表,当dfe=27,M=2,3时的SSR值及由此计算的LSR值列于下表不同光照某昆虫滞育天数多重比较SSR和LSR值光照平均数差异显著性α=0.05α=0.01A1A2A31037876abbABB(b)随机模型:对于随机模型,αi、βj、(αβ)ij和εijk是相互独立的随机变量,都遵从正态分布。在F检验时,先检验A×B是否显著:检验A、B时当FAB<Fɑ(不显著):合并SSAB和SSe、dfAB和dfe,求合并方差,做为F检验分母,再分别检验A、B;当FAB>Fɑ(显著):随机效应模型的方差分析表(A、B因素随机型)随机模型在遗传、育种和生态试验研究方面有广泛的应用。对随机效应模型,多重比较无意义,因为处理的效果无法严格重复。  例为了研究不同地块中施用不同数量农家肥对作物产量的影响,设计了一个两因素试验。将同一种作物种在随机挑选的不同地块上,并施以不同数量的农家肥,考查不同地块和不同施肥量对作物产量的影响。试验结果列在下表中。施肥量(A)地块(B)一号地二号地三号地100kg8.698.478.808.749.499.37200kg8.888.729.689.549.399.59300kg10.8210.8611.0010.9211.0711.01400kg11.1611.4210.9711.1311.0010.90不同地块是随机选出来的,属随机因素。农家肥的肥力水平,是很难人为控制的,即使施用相同的数量,其效应值也不会完全相同。因此,肥料也书随机因素。此为随机效应模型。将表中数字均减去9.5,计算方差(1)平方和的分解为:(2)自由度的分解为结果列入方差分析表方差分析表表中F的计算为:变异来源平方和自由度均方FF0.05F0.01施肥量A地块B交互作用AB误差22.33600.50081.2291.1332326127.45530.25040.20480.094456.824**1.9082.173.163.5535.096.014.82=0.1312从以上方差分析表中,可以看出所选择的不同地块对产量没有显著影响。但不同施肥量对产量的影响极为显著。(c)混合模型(以A为固定因素,B为随机因素为例):在混合模型中,A和B的效应为非可加性,αi为固定效应,βj及(αβ)ij为随机效应。对A作检验时同随机模型,对B和A×B作检验时同固定模型,即:  在实际应用中,固定模型应用最多,随机模型和混合模型相对较少。混合效应模型的方差分析表(A固定因素、B随机因素)  在啤酒生产中,为了研究烘烤方式(A)与大麦水分(B)对糖化时间的影响,选了两种烘烤方式,4种水分共8种处理,每一处理重复三次,结果如下表。烘烤方式(A)水分(B)B1B2B3B4A112.09.516.018.013.010.015.519.014.512.514.017.0A25.013.017.515.06.514.018.516.05.515.016.017.5  大麦水分是不均匀的,又不易控制,所以因素B是随机的,它的效应也是随机的,因此本题是一个混合模型的方差分析。将上表中各观测值都减去10,计算后得烘烤方式(A)标本号水分(B)B1B2B3B4A112.0-5.06.08.051.023.00.05.59.034.52.54.07.09.52.015.524.0A21-5.03.07.55.039.52-3.54.08.56.03-4.55.06.07.5-13.012.022.018.5-3.51437.542.590.5(1)平方和的分解为:(2)自由度的分解为结果列入方差分析表变异来源dfSSs2FF0.05F0.01烘烤方式A15.5105.5100.15410.1934.12水分B3228.86576.28855.482**3.245.29A×B误差316107.61522.00035.8721.37526.089**3.245.29总变异23363.99糖化时间方差分析表表中F的计算为:  F检验结果表明,水分和A×B的F值大于F0.01,大麦中的水分及水分与烘烤方式之间的互作对糖化时间的影响达到了极显著水平,而烘烤方式对糖化时间的作用不显著。在生产上应注意大麦的含水量及根据含水量来选择合适的烘烤方式。变异来源dfSSs2FF0.05F0.01烘烤方式A15.5105.5100.15410.1934.12水分B3228.86576.28855.482**3.245.29A×B误差316107.61522.00035.8721.37526.089**3.245.29总变异23363.99第四节   多因素方差分析  实际工作中,往往需要考察三个或多个因素的效应。这相当于把二因素方差分析扩展到一般情况。如在一个试验中,A因素有a水平,B因素有b水平,C因素有c水平等,假设每一处理都有n次重复,那么总观测次数为abcn次。本节仅对三因素的情况进行分析。(见P111)  设有一个三因素方差分析模型,各取了a、b、c个水平,每一处理有n次重复。对观测值,其线性数学模型为:xijkl=μ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkl总体平均数A因素第i水平,B因素第j水平,C因素第k水平第l次重复的观测值A因素、B因素、C因素的效应A×B、A×C、B×C的交互效应三因素的交互效应(A×B×C)xijklαi、βj、γk(αβ)ij、(αγ)ik、(βγ)jk(αβγ)ijki=1,2,…,a;j=1,2,…,b;k=1,2,…,c;l=1,2,…,nxijkl=μ+αi+βj+γk+(αβ)ij+(αγ)ik+(βγ)jk+(αβγ)ijk+εijkl同时应满足下列四个条件:  实际分析时,可将三因素试验数据列成三个两向表(A、B因素组合,B、C因素组合,A、C因素组合),把三因素方差分析化为二因素方差分析。  因此可以计算出SSA、SSB、SSC、SSAB、SSBC、SSAC,其中SSA、SSB、SSC不需要重复计算。总平方和为全部试验观测值的平方和,即:  误差平方和SSe显然等于在同一处理下数据的变异平方和,即:总平方和可分解为:总自由度的分解:dfT=dfA+dfB+dfC+dfAB+dfAC+dfBC+dfABC+dfe  方差分析的数据一般都是事先设计好的,意外事件常使某一个或某几个数据丢失,比如收获的作物可能遭到毁坏,动物可能有死亡,或者在记录时可能漏记或记错等等。  数据的缺失使平方和的线性可加模型无效,因此无法直接进行方差分析。  缺失的数据可用统计方法从理论上估计出,用计算出的数据去弥补缺失的数据,这样就可以用前面介绍过的方法进行分析。第五节  方差分析缺失数据的估计使补上缺失的数据后,误差平方和最小。弥补缺失数据的原则  有一点必须明确,缺失数据估计并不能恢复原来的数据,只能是补足后不致于干扰其余数据,估计的数据并不能提出任何新的信息,因此,试验中应尽量避免这类情况发生。缺失一个数据的估计方法方差分析缺失数据的估计缺失两个数据的估计方法缺失一个数据的估计方法B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA32737362437413343278A43042354046473846324总和124164112+x1491761711441761216+x上表中x23是缺失的,需要补上。B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA32737362437413343278A43042354046473846324总和124164112+x1491761711441761216+x误差的平方和可由下式求出:为了SSe达到最小,令    ,则有:解该方程,得:  把这个数据填在表内,在进行方差分析时,除总自由度dfT和误差自由度dfe各需减1外,其他仍可以按前面介绍的方法进行。缺失两个数据的估计方法B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA3273736243741y43245+yA43042354046473846324总和124164112+x14917617111+y1761183+x+y  上表的x23和x37都缺失,分别称为x和y。其弥补原则和弥补一个数据是一样的,即使SSe达到极小。先由下式求出误差的平方和:B1B2B3B4B5B6B7B8总和A13039414242393838309A23746x4351443549305+xA3273736243741y43245+yA43042354046473846324总和124164112+x14917617111+y1761216+x为使SSe极小,应满足:经整理,解得:x=42.97,y=30.57即:缺失的数据补上后进行方差分析时,总自由度dfT和误差自由度dfe均减2。  对试验数据进行方差分析是有条件的,即方差分析的有效性建立在一些基本假定上,如果分析的数据不符合这些基本假定,得出的结论就不会正确。一般地说,在试验设计时,就应考虑方差分析的条件。方差分析的基本假定和数据转换第六节方差分析的基本假定正态性可加性方差同质性  试验误差应当是服从正态分布的独立的随机变量。因为方差分析只能估计随机误差,顺序排列或顺序取样资料不能作方差分析。应用方差分析的资料应服从正态分布,即每一观测值Xij应围绕相应的平均数呈正态分布。  非正态分布的资料进行适当数据转后,也能进行方差分析。  处理效应与误差效应应该是可加的,并服从方差分析的数学模型,即  这样才能将试验的总变异分解为各种原因所引起的变异,以确定各变异在总变异中所占的比例,对试验结果作出客观评价。可加性是否显著有专门的统计方法。xij=μ+αi+βj+εij  所有试验的误差方差应具备同质性,也叫方差的齐性,即σ12=σ22=…=σn2  因为方差分析是将各个处理的试验误差合并以得到一个共同误差方差的,所以必须假定资料中这样一个共同方差存在。误差异质将使假设检验中某些处理效应得出不正确的结果。  方差的同质性检验前面已介绍过。如果发现有方差异质的现象,可将变异特别明显的数据剔除,当然剔除数据是应十分小心,以免失掉某些信息。或者将试验分成几个部分分析,使每部分具有同质的方差。  在生物学中,有时会遇到一些样本,其所来自的总体和方差分析的基本假定相抵触,这些数据在作方差分析之前必须经过适当处理及数据转换来更变测量标尺。  样本的非正态性、不可加性和方差的异质性通常连带出现,主要的是考虑处理效应与误差效应的可加性,其次才考虑方差同质性。数据转换数据转换常用的转化方法平方根转换对数转换反正弦转化平方根转换数据类型数据为正整数,属于泊松分布而非正态分布,样本平均数与其方差有比例关系2.描述的现象(稀有现象)单位面积上的菌落数、一定面积上某种杂草株数或昆虫头数、放射性物质在单位时间内的放射次数、单位数量的种子中混有的杂草种子数,等等转换方法采用平方根转换可获得同质的方差。一般将原观测值转化成  ,数据较小时采用对数转换  如果已知资料中的效应成比例而不是可加的,或者标准差(或极差)与平均数大体成比例时,可以使用对数变换。反正弦转化  如果数据是比例或以百分率表示的,其分布趋向于二项分布,方差分析时应作反正弦转换,用下式把它们转化成一个相应的角度:相应的角度值百分数资料方差分析的基本步骤:确定数学模型进行多重比较列方差分析表,进行检验平方和自由度的分解单因素方差分析方 差 分 析基本假定数据转换二因素方差分析多因素方差分析缺失数据的估计试验数据的方差分析组内观测次数相等组内观测次数不等无重复观测值有重复观测值
/
本文档为【第六章 方差分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索