应用多元统计分析课后答案_朱建平版
第二章 2.1.试叙述多元联合分布和边际分布之间的关系。
,解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的XXXX,(,,)?12p
,联合分布密度函数是一个p维的函数,而边际分布讨论是的子向量的XXXX,(,,)?12p概率分布,其概率密度函数的维数小于p。
,2.2设二维随机向量服从二元正态分布,写出其联合分布和各边缘分布。 ()XX12
2,,,,112,,,,解:设的均值向量为,协方差矩阵为,则其联μ,()XX,,,,12122,,212,,合分布密度函数为
,1/2,1222,,,,,,,,,,11,,,,112112。 ,f()exp()()xx,,,,μxμ,,,,,,,,222,,,,2,,,,,,,212212,,,,
,2.3已知随机向量的联合密度函数为 ()XX12
2[()()()()2()()]dcxabaxcxaxc,,,,,,,,1212 fxx(,),1222()()badc,,
其中,。求 axb,,cxd,,12
(1)随机变量和的边缘密度函数、均值和方差; XX12
(2)随机变量X和X的协方差和相关系数; 12
(3)判断XX和是否相互独立。 12
XX(1)解:随机变量和的边缘密度函数、均值和方差; 12
d2[()()()()2()()]dcxabaxcxaxc,,,,,,,,1212 fxdx(),1x22,1c()()badc,,
dd2()()2[()()2()()]dcxaxbaxcxaxc,,,,,,,12212,,dx 22222,c()()()()badcbadc,,,,c
d,dc2()()2[()2()]dcxaxbatxat,,,,,121,,dt 2222,0()()()()badcbadc,,,,c
dc,d222()()[()2()]1dcxaxbatxat,,,,,121 ,,,2222()()()()badcbadcba,,,,,c0
所以
2ba,,,ba,由于服从均匀分布,则均值为,方差为。 X1212
1,xcd,,dc,,,,1同理,由于服从均匀分布,则均值为,Xfx,()dc,,2x222,其它0,
2dc,,,方差为。 12
(2)解:随机变量和的协方差和相关系数; XX12
cov(,)xx12
dbabdc,,2[()()()()2()()]dcxabaxcxaxc,,,,,,,,,,,,1212,,,xxdxdx1212,,,,,,22ca22()()badc,,,,,,
()()cdba,,, 36
cov(,)1xx12 ,,,3,,xx12
(3)解:判断X和X是否相互独立。 12
fxxfxfx(,)()(),X和X由于,所以不独立。 1212xx1212
,XXXX,(,,)?2.4设服从正态分布,已知其协方差矩阵,为对角阵,证明其分量是相12p
互独立的随机变量。
,XXXX,(,,)?解: 因为的密度函数为 12p
p11,,,1/2,,,1,fxx(,...,)exp()(),,,,ΣxμΣxμ ,,1p,,22,,,,,
2,,,1,,2,2,,又由于 Σ,,,?,,2,,,p,,
222 Σ,,,,?12p
1,,
2,,,1,,
,,1
,,21, Σ,,2,,
,,?
,,1,,2,,p,,,
则 fxx(,...,)1p
,,1,,
,,2,,,1,,,,
,,,,1p,1/211,,,,,,2,2221,,,,,,,Σ?exp()()xμΣxμ,,,,2,,p12,,,,22,,,,,,,?,,,,1,,,,2,,,,p,,,,,
p222,,()x,,,1()x,,()x1111,,,,,,pp2311 ,,,,,?exp...,,,,,,,12p,,222222,,,2,,,,,12p,,
2p,,()x,,1ii,,,exp()...()fxfx ,,,1p22,2,,,i1i,,i
则其分量是相互独立。
2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为
n
ˆ μXX,,n,i,1i
nˆ, ΣXXXX,,,n()(),ii,1i
35650.00,,
,,12.33,,ˆμX,, ,,17325.00
,,,,152.50,,
201588000.0038900.0083722500.00-736800.00,,
,,38900.0013.06716710.00-35.80,,ˆ Σ,,,83722500.0016710.0036573750.00-199875.00
,,,,-736800.00-35.800-199875.0016695.10,,
10,,
11,,,,I,?,注:利用 , S 其中 ,,XIX11()XX,1nnnnpn,1,,nn,,01,,
在SPSS中求样本均值向量的操作步骤如下:
1. 选择菜单项Analyze?Descriptive Statistics?Descriptives,打开Descriptives对话框。
将待估计的四个变量移入右边的Variables列
框中,如图2.1。
图2.1 Descriptives对话框
2. 单击Options按钮,打开Options子对话框。在对话
框中选择Mean复选框,即计算样本均值向量,如图2.2所示。单击Continue按
钮返回主对话框。
图2.2 Options子对话框
3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即
样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。
表2.1 样本均值向量
在SPSS中计算样本协差阵的步骤如下:
1. 选择菜单项Analyze?Correlate?Bivariate,打开
Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图
2.3。
图2.3 Bivariate Correlations对话框
2. 单击Options按钮,打开Options子对话框。选择
Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差
阵,如图2.4。单击Continue按钮,返回主对话框。
图2.4 Options子对话框
3. 单击OK按钮,执行操作。则在结果输出窗口中给
出相关分析表,见表2.2。表中Covariance给出样本协差阵。(另外,Pearson
Correlation为皮尔逊相关系数矩阵,Sum of Squares and Cross-products为样本离
差阵。)
2.6 无偏性;渐近无偏性、有效性和一致性; 2.7 设总体服从正态分布,,有样本。由于是相互独立的正X~(,)NμΣXXXX,,...,p12n
态分布随机向量之和,所以也服从正态分布。又 X
nnn,, EEnEnn()XXXμμ,,,,,,,,,ii,,,,,111iii,,
nnn11Σ,, DDnD()XXX,,,,Σ,,,,,ii,,22nnn,,,111iii,,
X~(,)NμΣ所以。 p
n1ˆ,2.8 方法1: ΣXXXX,,,()(),iin,1,1i
n1,, ,,XXXXn,iin,1,1i
n1ˆ,, EEnΣXXXX,,()(),iin,1,1i
n1,,,,EnEXXXX ,,,,,,,ii,,n,1,1i,,
n11Σ,,nn 。 ,,,,,ΣΣΣ(1),,,nnn,,11,1,,i
n
,方法2: SX-X)(X-X,(),ii1i,
n, ,,,,X-μ((Xμ)X-μXμ),,,,,,ii,,,,1i,
nn
,,, ,,,,,()()2()()()X-μX-μX-μX-μnXμ)(XμXμ,,iii,,11ii
n
,,, ,,,,,,,()()2()()X-μX-μnnXμ)(XμXμ)(Xμ,ii,1i
n
,, ,,,,()()()X-μX-μnXμ)(Xμ,ii,1i
nS1,,,, EEn()()()(),,,,X-μX-μXμ)(Xμ,ii,,nn,,11,1,,i
n1,,,, 。 EnEX-μX-μXμ)(XμΣ,,,,,()()(),ii,,n,1,1,,i
SΣ故为的无偏估计。 n,1
S2.9.设X,X,...,XX~(,)NμΣ是从多元正态分布抽出的一个简单随机样本,试求(1)(2)()np
的分布。
证明: 设
***?,,
,,***?,,
,Γ,,(),,,ΓΓI,为一正交矩阵,即。 ***?ij,,111,,?,,nnn,,
,Ζ=(ΖΖΖ)=XXXΓ??令, ,,12n12n
由于独立同正态分布且为正交矩阵X(1,2,3,4,),in,?Γ i
,(),,,,,?独立同正态分布所以。且有 12n
nn11Var()Z,Σ,,。 ΖΧ,EEnΖΧμ,,()(),,nnininn,1,1ii
n
EEran()()(1,2,3,,1)ΖΧ,,,?,aajj,1j
n1 ,nrμ,ajn,1j
n
, ,,nrrμ0,ajnj,1i
n
VarVarr()()ΖΧ,,aajj,1j
nn22 ,,,rVarrΧΣΣ,,,,ajjaj,,jj11
所以独立同分布。 ΖΖΖ?N(0,)Σ121n,
n
,又因为 SXXXX,,,()(),jji1,
n
,,,,XXXXn ,jjj,1
,nn11,,,,,,nnnnXXXXZZ,,因为 ,,iinn,,,,nn,,11ii,,,,
,X,,1,,n,X,,2,,,XX,XX?X又因为 ,12jjn,,?j,1,,,,,Xn,,
,X,,1,,,X2,,,,XXX?ΓΓ ,,12n,,?
,,,,,X,,n
,Z,,1,,,Z2,,,ZZZ? ,,12n,,?
,,,,,Z,,nnn
,,,,XX,ZZ,ZZ,ZZ所以原式 ,,jjnnjjnn,1,1jj
,,,, ZZZZZZ-...ΖΖ,,,,1122nnnn
n,1
,故,由于独立同正态分布,所以 S,,,N(0,)ΣZZZ,,,?,pjj121n,j,1
n,1
, S,,,,,~(1,)Wn,jjpj,1
2.10.设是来自的简单随机样本,, N(,)μΣXnp(),ik,1,2,3,,?piiii
(1)已知且,求和的估计。 Σμμμμμ,,,,...ΣΣΣΣ,,,,...12k12k(2)已知求和Σ的估计。 ΣΣΣΣ,,,,...μμμ,,...,,12k12k
nka1aˆ解:(1), μxx,,,,innn,,,...,,11ai12k
nka,aaxxxx,,,,,,,,ii,,11aiˆ Σ,nnn...,,,12k
(2) ln(,,,)LμμΣ?1k
nka,2n1-1paa,,, ,,2,Σ(x-μ)Σ(x-μ)ln()exp[],,iaia,,2,,11ai
nka11n-1aa, μ,ΣΣ,,,,,(x-μ)Σ(x-μ)ln()ln()lnLpn2,,iaia222,,11ai
nka2,ln(,)1LnμΣ,,11aa, ,,,,,,ΣXμXμΣ()()0,,,,iaia,Σ22,,11ai
nj,ln(,)LμΣj,1,,,,Σ()0(1,2,...,)Xμjk ,ijj,μi,1j
解之,得
njk,xxxx,,,,,,n,,ijijjjj1,,11jiˆˆμ,,xx, Σ,,jjijnnnn...,,,i,1j12k
第三章
3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。
其基本思想和步骤均可归纳为:
答: 第一,提出待检验的假设和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出
决策(拒绝或接受)。
均值向量的检验:
统计量 拒绝域
在单一变量中
()X,,20当已知 zn, ,||zz,,/2,
()X,,20tn,当未知 ,||(1)ttn,,,/2S
n1222 (作为的估计量) ,SXX,,(),in,1,1i
一个正态总体 H:μμ,00
212,22,Σ协差阵已知 Tnp()()~(),T,,,,,XμΣXμ,0000
np(1)1np,,,,22Σ协差阵未知 TF,TFpnp~(,),,(1)np,(1)np,
21,, () Tnnn,,,,(1)[()()]XμSXμ00
两个正态总体 H:μμ,012
nm,212,22,Tp()()~(),有共同已知协差阵 ,,,XYΣXYT,,0,0nm,
(2)1nmp,,,,2有共同未知协差阵 FF, FTFpnmp,,,,~(,1),(2)nmp,,
,,,,,nmnm,,21,(其中 ) Tnm(2)()(),,,,,XYSXY,,,,nmnm,,,,,,
()npn,-1,FF,协差阵不等 n,mFFpnp,,ZSZ~(,),p
()npn,-1,FF,协差阵不等 ZSZ n,mFFpnp,,~(,),p
H:,,,,?,,多个正态总体 012k
SSAk(1),FF,单因素方差 FFknk,,,~(1,),SSEnk(),
EE多因素方差 ,,,,,,~(,,1)pnkkTAE,
协差阵的检验
检验 ΣΣ,0
np/21en/2,,,, H:Σ,I,,,SSexptr,,0p,,2n,,,,
np/2n/21e,,,,** H:ΣΣ,,I,,,SSexptr,,00p,,2n,,,,检验 ΣΣΣ,,,?H:ΣΣΣ,,,?12k012k
kk/2/2nn/2i/2pnnpi统计量 ,,nnSS,,kii,,11ii
3.2 试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t分布和F分布的关
系。
答:(1)霍特林分布是t分布对于多元变量的推广。
2nX(),,,221,SX而若设X~(,)NμΣ,且与S~(,)WnΣtnXSX,,,,()()(),,pp2S
2相互独立,,则称统计量的分布为非中心霍特林T分布。 n,p
21,,SXTnX0~(,)NΣ,XSXS~(,)WnΣ若,且与相互独立,令,则 pp
np,,12 。 TFpnp~(,1),,np
FF(2)威尔克斯分布在实际应用中经常把统计量化为统计量,利用统计量来解
决多元统计分析中有关检验问题。
,F 与统计量的关系
p nn F统计量及分别 12
nppn,,,,11(,,1)11 ,,,~(,1)Fpnp任意 任意 1 1ppn,(,,1)1
1(,,2),,pnnp,11 ,,~(2,2())Fpnp任意 任意 2 1p,(,,2)pn1
nnn1(1,,),,112 ,~(,)Fnn任意 任意 1 21nnn,(1,,)212
1(2,,),,nnn,1121 ,,~(2,2(1))Fnn任意 任意 2 21n,(2,,)nn212
3.3 试述威尔克斯统计量在多元方差分析中的重要意义。 答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
Hij:至少存在使,,μμH:μμμ,,,?1ij012k
EE用似然比原则构成的检验统计量为 给定检验水,,,,,,~(,,1)pnkkTAE,平,查Wilks分布表,确定临界值,然后作出统计判断。 ,
第四章
4.1 简述欧几里得距离与马氏距离的区别和联系。
答: 设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为
。欧几里得距离的局限有?在多元数据分析中,数量级的影响。?会受到实际问题中量纲的影响。
设X,Y是来自均值向量为,协方差为的总体G中的p维样本。则马氏距离为D(X,Y)=。当即单位阵时,D(X,Y)==即欧几里得距离。
因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。
4.2 试述判别分析的实质。
答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,„,Rk是p维空间R p的k个子集,如果它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。
4.3 简述距离判别法的基本思想和方法。
答:距离判别问题分为?两个总体的距离判别问题和?多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ?两个总体的距离判别问题
设有协方差矩阵?相等的两个总体G和G,其均值分别是,和, ,对于一个新的样品X,121222要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D(X,G)和D(X,G),12则
22 X ,D(X,G)D(X,G) 12
22X ,D(X,G)> D(X,G, 12
具体分析,
22DGDG(,)(,)XX, 12
,,11,,,,,,,,()()()()XμΣXμXμΣXμ1122
,,,,,,111111,,,,,,,,,,,,XΣXX2(2)ΣμμΣμXΣXXΣμμΣμ111222
,,,111,,,2(),,,,XΣμμμΣμμΣμ211122,,11,,,,,,,2()()()XΣμμμμΣμμ211212
,μμ,,,,112 ,,,,2()XΣμμ12,,2,,
,,,,,,,,2()2()XμααXμ
,记 则判别规则为 W()()X,,αXμ
X ,W(X)
X ,W(X)<0
?多个总体的判别问题。
k设有个总体,其均值和协方差矩阵分别是和,G,G,?,Gμ,μ,?,μΣ,Σ,?,Σ12k12k12k
且。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属Σ,Σ,?,Σ,Σ12k
于哪个总体。
21,,具体分析, DG(,)()()XX,,,μΣXμ,,,
,,,111,,,,,,XΣX2μΣXμΣμ,,, ,1,,,,,XΣXIX2()C,,
1,1,1,C,,μΣμ取,,。 I,Σμ,,1,2,?,k,,,,,2
可以取线性判别函数为
,WC()XIX,,, ,,1,2,?,k,,,
,WC()max()XIX,,相应的判别规则为X,G 若 i,,i1,,k,
4.4 简述贝叶斯判别法的基本思想和方法。
G,G,?,Gf(x),f(x),?,f(x)基本思想:设k个总体,其各自的分布密度函数,假设k12k12k
k
q,q,?,qq,0G个总体各自出现的概率分别为,,。设将本来属于总体的样品q,1ii12k,ii,1
G错判到总体时造成的损失为,。 C(j|i)i,j,1,2,?,kj
kpG,G,?,GR,(R,R,?,R)设个总体相应的维样本空间为 。 12k12k
RGG在规则下,将属于的样品错判为的概率为 ji
P(j|i,R),f(x)dxi,j,1,2,?,ki,j i,Rj
则这种判别规则下样品错判后所造成的平均损失为
k
r(i|R),[C(j|i)P(j|i,R)]i,1,2,?,k ,,1j
R则用规则来进行判别所造成的总平均损失为
k
g(R),qr(i,R),i,1ikk
,qC(j|i)P(j|i,R),,i,,11ij
贝叶斯判别法则,就是要选择一种划分,使总平均损失达到极小。 R,R,?,Rg(R)12k
kk
基本方法: g(R),qC(j|i)P(j|i,R),,i,,11ij
kk
,qC(j|i)f(x)dx,,ii,Rj,,11ij
kk
,(qC(j|i)f(x))dx,,ii,Rj,,11ji
kk
令,则 g(R),h(x)dxqCjifh(|)()()xx,,,jiij,Rj,1,1ji
k*****若有另一划分, g(R),h(x)dxR,(R,R,?,R),j*12k,Rj,1j
则在两种划分下的总平均损失之差为
kk* g(R),g(R),[h(x),h(x)]dx,,ij*,,RRij,,11ij
j因为在上h(x),h(x)对一切成立,故上式小于或等于零,是贝叶斯判别的解。 Riji
Rhh,,{|()min()}xxxiijR,(R,R,?,R)i,1,2,?,k1,,jk12k从而得到的划分为
4.5 简述费希尔判别法的基本思想和方法。
pk答:基本思想:从个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
,UuXuXuX()XuX,,,,,? 1122pp
,u(u,u,?,u),系数可使得总体之间区别最大,而使每个总体内部的离差最小。将新样12p
pU()X品的个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。
答:? 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ? 当k=2时,若则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。
? 当时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。
? 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X , W(X)
X ,W(X)