为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 应用多元统计分析课后答案-朱建平版

应用多元统计分析课后答案-朱建平版

2022-04-04 3页 doc 1MB 131阅读

用户头像 个人认证

is_812200

从事货运行业多年,有经验丰富的货运经验

举报
应用多元统计分析课后答案-朱建平版2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,LXp)的联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,LXp)的子向量的概率分布,其概率密度函数的维数小于p。2.2设二维随机向量(X1X2)服从二元正态分布,写出其联合分布。2解:设(X1X2)的均值向量为μ12,协方差矩阵为112,则其联合分布密...
应用多元统计分析课后答案-朱建平版
2.1.试叙述多元联合分布和边际分布之间的关系。解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,X(X1,X2,LXp)的联合分布密度函数是一个p维的函数,而边际分布讨论是X(X1,X2,LXp)的子向量的概率分布,其概率密度函数的维数小于p。2.2设二维随机向量(X1X2)服从二元正态分布,写出其联合分布。2解:设(X1X2)的均值向量为μ12,协方差矩阵为112,则其联合分布密2212度函数为1221/2121f(x)112expμ)112(xμ)。22(x221222122.3已知随机向量(X1X2)的联合密度函数为f(x1,x2)2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)](ba)2(dc)2其中ax1b,cx2d。求1)随机变量X1和X2的边缘密度函数、均值和方差;2)随机变量X1和X2的协方差和相关系数;3)判断X1和X2是否相互独立。1)解:随机变量X1和X2的边缘密度函数、均值和方差;fx(x1)d2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]dxc(ba)2(dc)212(dc)(x1a)x2dd2[(ba)(x2c)2(x1a)(x2c)](ba)2(dc)2cc(ba)2(dc)2dx22(dc)(x1dc2[(ba)t2(x1a)t]a)x2ddt22022(ba)(dc)c(ba)(dc)da)t2a)t2dc2(dc)(x1a)x2[(b2(x1]1(ba)2(dc)2c(ba)2(dc)20bab2所以由于X1服从均匀分布,则均值为ba,方差为a。122精选1同理,由于X2服从均匀分布fx2(x)dx1c,d,则均值为dc,方差2c20其它2dc为。12(2)解:随机变量X1和X2的协方差和相关系数;cov(x1,x2)dx1abx2dc2[(dc)(x1a)(ba)(x2c)2(x1a)(x2c)]dx1dx2bca22(ba)2(dc)2(cd)(ba)36cov(x1,x2)1x1x23(3)解:判断X1和X2是否相互独立。X1和X2由于f(x1,x2)fx1(x1)fx2(x2),所以不独立。2.4设X(X1,X2,LXp)服从正态分布,已知其协方差矩阵为对角阵,证明其分量是相互独立的随机变量。解:因为X(X1,X2,LXp)的密度函数为pf(x1,...,xp)11/21(xμ)Σ1(xμ)Σexp22212又由于Σ2O2pΣ22L212p精选1211Σ12则f(x1,...,xp)2O12p1211p1/211Σ22L2μ)Σ12(xμ)212pexp(x22O12p1p11(x11)21(x23)21(xpp)2Lexp212p2222...2122pp1(xii)2f(x1)...f(xp)则其分量是相互独立。exp2i2i1i22.6渐近无偏性、有效性和一致性;2.7设总体服从正态分布,X~Np(,)X1,X2,...,Xn。由于X是相互独立的正态分布随μΣ,有样本机向量之和,所以X也服从正态分布。又nnE(X)EXinEXii1i1D(X)Dnn1nDXiXin2i1i1?1n2.8方法(XiX)(Xi1:Σn1i1?1nE(XiXiE(Σ)n1i11nΣnΣn1i1nnnμnμi11nΣ所以X~Np(μΣ,)。n2Σni11nX)XiXinXXn1i11nnXX)EXiXinEXX1ni11(n1)ΣΣ。n1精选nn方法2:S(Xi-X)(Xi-X)Xi-μ(Xμ)Xi-μ(Xμ)i1i1nn(Xi-μ)(Xi-μ)2(Xi-μ)(X-μ)n(Xμ)(XμXμ)i1i1n(Xi-μ)(Xi-μ)2n(Xμ)(Xμ)n(Xμ)(Xμ)i1n(Xi-μ)(Xi-μ)n(Xμ)(Xμ)i1S1n)E(Xi-μ)(Xi-μ)n(Xμ)(Xμ)E(nn11i11nE(Xi-μ)(Xi-μ)nE(Xμ)(Xμ)ΣS故为Σ的无偏估计。1。ni1n12.9.设X(1),X(2),...,X(n)是从多元正态分布X~Np(μ,Σ)抽出的一个简单随机样本,试求S的分布。**L***L*证明:设Γ**L*(ij)为一正交矩阵,即ΓΓI。11L1nnn令Ζ=(Ζ1Ζ2LΖn)=X1X2LXnΓ,由于Xi(i1,2,3,4,Ln)独立同正态分布,且Γ为正交矩阵所以(12Ln)独立同正态分布。且有1n1nΧi,E(Ζn)E(Χi),Var(Zn)Σ。Ζnninμ1ni1nE(Ζa)E(rajΧj)(a1,2,3,L,n1)j1n1nrajj1nVar(Ζ)Var(anμnμrajrnj0i1nrajΧj)j1精选nnraj2VarΧjΣraj2Σj1j1n所以ΖΖLΖ独立同N(0,Σ)分布。又因为S(XjX)(XjX)12n1i1nXjXjnXXj11n1n因为nXXnnXinXiZnZnni1ni1X1X1nX2X2XjXjX1X2XnX1X2L又因为XnΓΓj1MXnXnZ1Z1Z2LZnZ2MZnnn所以原式XjXjZnZnZjZjZnZnZ1Z1Z2Z2...ZnZn-ΖnΖnj1j1n1Sjj,由于Z1,Z2,L,Zn1Np(0,),所以故独立同正态分布j1n1Sj1jj~Wp(n1,)2.10.设Xi(nip)是来自Npiii1,2,3,L,k,(μ,Σ)的简单随机样本,(1)已知μ1μ2...μkμ且Σ1Σ2...ΣkΣ,求μ和Σ的估计。(2)已知ΣΣ...ΣΣ求μμ,...,,μ和的估计。12k1,2kΣknaxiaxxiax?1knaa?a1i1解:(1),xiΣμxn1n2...nka1i1n1n2...nkpn21kna(xa-μ)Σ-1(xa(2)lnL(μ1,L,μk,Σ)ln(2)Σexp[-μ)]2a1i1iaia精选lnL(μ,Σ)1pnln(2)nlnΣ1222kna(xa-μ)Σ-1(xa-μ)iaiaa1i1lnL(μ,Σ)ΣlnL(μj,Σ)μj?xjμjn11knaaaμa)12ΣΣ22a(Xiμa)(Xi01i1njΣ1(Xijμj)0(j1,2,...,k)解之,得i1knj1nj?j1i1xijxjxijxjxijnj,Σn1n2...nki1第三章3.1试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。其基本思想和步骤均可归纳为:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。均值向量的检验:统计量拒绝域均值向量的检验:在单一变量中当2已知z(X0)n|z|z/2当2未知t(X0)n|t|t/2(n1)S1n(S2(XiX)2作为2的估计量)n1i1一个正态总体H0:μμ0协差阵已知2n(X1(Xμ0)~2(p)22ΣT0μ0)ΣT0协差阵Σ未知(n1)p1T2~F(p,np)npT2F(n1)p(n1)p(T2(n1)[n(Xμ0)S1n(Xμ0)])精选两个正态总体H0:μ1μ2有共同已知协差阵T02nm(XY)Σ1(XY)~2(p)T022nm有共同未知协差阵F(nm2)p1T2~F(p,nmp1)FF(nm2)p(其中T2(nm2)nm(XY)S1nm(XY))nmnm协差阵不等协差阵不等nmF(np)nZS-1Z~F(p,np)FFpnmF(np)nZS-1Z~F(p,np)FFp多个正态总体H0:12k单因素方差FSSA(k1)~F(k1,nk)FFSSE(nk)多因素方差EE(p,nk,k1)T~AE协差阵的检验检验ΣΣ01np/2H0:ΣIpexpSn/2etrSn21np/2H0:ΣΣ0Ipexp**n/2etrSSn2检验Σ1Σ2LΣkH0:Σ1Σ2LΣkkk统计量knnp/2Sini/2Sn/2nipni/2i1i13.2试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t分布和F分布的关系。精选答:(!)霍特林分布是t分布对于多元变量的推广。t2n(X)2n(X)(S2)1(X)而若设X~Np(μ,Σ),S~Wp(n,Σ)且X与SS2相互独立,np,则称统计量的分布为非中心霍特林T2分布。若X~Np0ΣS~Wp(n,Σ)S21且X与相互独立,令TnXSX,则(,),np1T2~F(p,np1)。np(2)威尔克斯分布在实际应用中经常把统计量化为T2统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。与F统计量的关系pn1n2任意任意1任意任意21任意任意2任意任意F统计量及分别n1p11(p,n1,1)1)p~F(p,n1p(p,n1,1)n1p1(p,n1,2)p))p~F(2p,2(n1(p,n1,2)n11(1,n1,n2)~F(n2,n1)n2(1,n1,n2)n111(2,n1,n2)n2~F(2n2,2(n11))(2,n1,n2)3.3试述威尔克斯统计量在多元方差分析中的重要意义。答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。H0:μ1μ2LμkH:至少存在ij使μμ1ijEE(p,nk,k1)给定检验水平用似然比原则构成的检验统计量为TA~,查EWilks分布表,确定临界值,然后作出统计判断。第四章4.1简述欧几里得距离与马氏距离的区别和联系。答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲精选的影响。设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)==即欧几里得距离。因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。4.2试述判别分析的实质。答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,,Rk是p维空间Rp的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。4.3简述距离判别法的基本思想和方法。答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。①两个总体的距离判别问题设有协方差矩阵∑相等的两个总体1和2,其均值分别是1和2,对于一个新的样品,要判断它来自哪GGX个总体。计算新样品X到两个总体的马氏距离2(1)和2(2),则DX,GDX,GX,2(XG1)2DD(X,G),222X,D(X,G1)>D(X,G2,具体分析,D2(X,G1)D2(X,G2)(Xμ1)Σ1(Xμ1)(Xμ2)Σ1(Xμ2)XΣ1X2XΣ1μ1μΣ11μ1(XΣ1X2XΣ1μ2μΣ21μ2)2XΣ1(μ2μ1)μΣ11μ1μΣ21μ22XΣ1(μμ)(μμ)Σ1(μμ)211212μμ1122XΣ(μ1μ2)22(Xμ)α2α(Xμ)记W(X)α(Xμ)则判别规则为X,W(X)X,W(X)<0精选②多个总体的判别问题。设有k个总体G1,G2,,Gk,其均值和协方差矩阵分别是μ1,μ2,,μk和Σ1,Σ2,,Σk,且ΣΣΣΣ。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。12k具体分析,D2(X,G)(Xμ)Σ1(Xμ)XΣ1X2μΣ1XμΣ1μXΣ1X2(IXC)取IΣ1μ,C1μΣ1μ,1,2,,k。2可以取线性判别函数为W(X)IXC,1,2,,k相应的判别规则为XGi若Wi(X)max(IXC)1k4.4简述贝叶斯判别法的基本思想和方法。基本思想:设k个总体G1,G2,,Gk,其各自的分布密度函数f1(x),f2(x),,fk(x),假设k个总体各k总体的样品错判到总体Gj时自出现的概率分别为q1,q2,,qk,qi0,qi1。设将本来属于Gii1造成的损失为C(j|i),i,j1,2,,k。设k个总体G1,G2,,Gk相应的p维样本空间为R(R1,R2,,Rk)。在规则R下,将属于Gi的样品错判为Gj的概率为P(j|i,R)fi(x)dxi,j1,2,,kijRj则这种判别规则下样品错判后所造成的平均损失为kr(i|R)[C(j|i)P(j|i,R)]i1,2,,kj1则用规则R来进行判别所造成的总平均损失为kkkg(R)qir(i,R)qiC(j|i)P(j|i,R)i1i1j1贝叶斯判别法则,就是要选择一种划分R1,R2,,Rk,使总平均损失g(R)达到极小。kkkk基本方法:g(R)qiC(j|i)P(j|i,R)qiC(j|i)fi(x)dxi1j1i1Rjj1kkkkRj(qiC(j|i)fi(x))dx令qiC(j|i)fi(x)hj(x),则g(R)hj(x)dxi1i1jRjj11精选k若有另一划分R*(R1*,R2*,,Rk*),g(R*)*hj(x)dxjRj1kk则在两种划分下的总平均损失之差为g(R)g(R*)RR*[hi(x)hj(x)]dxi1j1ij因为在Ri上hi(x)hj(x)对一切j成立,故上式小于或等于零,是贝叶斯判别的解。R(R1,R2,,Rk)Ri{x|hi(x)minhj(x)}i1,2,,k从而得到的划分为1jk4.5简述费希尔判别法的基本思想和方法。答:基本思想:从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数U(X)u1X1u2X2LupXpuX系数u(u1,u2,,up)可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。4.6试析距离判别法、贝叶斯判别法和费希尔判别法的异同。答:①费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。②当k=2时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。③当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。④距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是X,W(X)X,W(X)公式
应遵循哪些原则?答:设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。(1).最短距离法DijXimindijGi,XjGjDkrXimindijmin{Dkp,Dkq}Gk,XjGr(2)最长距离法DpqXimaxdijGp,XjGqDkrXimaxdijmax{Dkp,Dkq}Gk,XjGr(3)中间距离法Dkr21Dkp21Dkq2Dpq222其中(42(XpXq)(XpXq)Xr1nqXq))重心法Dpq(npXpnrDkr2npnqnpnqDkp2Dkq22Dpq2nrnrnr(5212D21d2npD2nqD2)类平均法DpqnpnqXidijkrnknrXiGkXjGrijnrkpnrkqGpXjGj(6)可变类平均法Dkr2(1)(npDkp2nqDkq2)Dpq2nrnr精选其中是可变的且<1(7)可变法Dkr21(Dkp2Dkq2)Dpq2其中是可变的且<12nt(8)离差平方和法St(XitXt)(XitXt)t1Dkr2nknpDkp2nknqDkq2nkDpq2nrnknrnknrnk通常选择距离公式应注意遵循以下的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。5.5试述K均值法与系统聚类法的异同。答:相同:K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。不同:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。5.6试述K均值法与系统聚类有何区别?试述有序聚类法的基本思想。答:K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。有序聚类就是解决样品的次序不能变动时的聚类分析问题。如果用X(1),X(2),,X(n)表示n个有序的样品,则每一类必须是这样的形式,即X(i),X(i1),,X(j),其中1in,且jn,简记为Gi{i,i1,,j}。在同一类中的样品是次序相邻的。一般的步骤是(1)计算直径{D(i,j)}。(2)计算最小分类损失函数{L[p(l,k)]}。(3)确定分类个数k。(4)最优分类。5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。1)用最短距离法进行聚类分析。采用绝对值距离,计算样品间距离阵精选0102105430876301098520由上表易知中最小元素是于是将,,聚为一类,记为计算距离阵0306308520中最小元素是=2于是将,聚为一类,记为计算样本距离阵030精选630中最小元素是于是将,聚为一类,记为因此,2)用重心法进行聚类分析计算样品间平方距离阵0104102516906449369010081642540易知中最小元素是于是将,,聚为一类,记为计算距离阵0160精选4990812540注:计算方法,其他以此类推。中最小元素是=4于是将,聚为一类,记为计算样本距离阵016064160中最小元素是于是将,聚为一类,记为因此,第六章6.1试述主成分分析的基本思想。答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。6.2主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。6.3简述主成分分析中累积贡献率的具体含义。答:主成分分析把p个原始变量X1,X2,L,Xp的总方差tr(Σ)分解成了p个相互独立的变量精选pkp个主成分Y1,Y2,L,Yp的方差之和k1。主成分分析的目的是减少变量的个数,所以一般不会使用所有p为第k的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称kkkk1个主成分Yk的贡献率。第一主成分的贡献率最大,这表明Y1T1X综合原始变量X1,X2,L,Xp的能力最强,而Y2,Y3,L,Yp的综合能力依次递减。若只取m(p)个主成分,则称mpmkk为主k1k1成分Y1,L,Ym的累计贡献率,累计贡献率表明Y1,L,Ym综合X1,X2,L,Xp的能力。通常取m,使得累计贡献率达到一个较高的百分数(如85%以上)。6.4在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确?说明理由。答:这个说法是正确的。,即原变量方差之和等于新的变量的方差之和6.5试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。6.6已知X=()’的协差阵为试进行主成分分析。解:=0计算得,当时,精选同理,计算得,时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7设X=()’的协方差阵(p为0
/
本文档为【应用多元统计分析课后答案-朱建平版】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索