多重共线性
一、多重共线性
1.由此可得出模型估计的结果为:
ˆ=12815.75+6.212562+0.42138-0.16626-0.09777-0.028425 XXYXXX35124
(14078.9)(0.740881)(0.126925)(0.059229)(0.067647)(0.202357)
t= (-0.91028)(8.385373)(3.319919)(-2.807065)(-1.445299)(-0.140471)
22=0.982798 =0.975630 F=137.1164 n=18 RR
2.模型检验:
?经济意义检验:根据经验,除成灾面积增加后,粮食产量Y会减少外,其X3
余变量增加,Y都应该是增加的,即除符号为负号,其余均为正号。但结果X3
显示,和的符号与预期相反,这
明很可能存在严重的多重共线性。 XX54
2?拟合优度:由表中数据可得,=0.982798 ,修正的可决系数为R
2=0.975630,可决系数很高,说明模型对样本的拟合很好。 R
?F检验:针对:=====0,给定显著性水平=0.05,在F分H,,,,,,035124
布表中查出自由度为k-1=6-1=5和n-k=12的临界值(5,12)=3.11。由表可F,得F=137.1164>(5,12)=3.11,应拒绝原假设H:==,==,=0,F,,,035,124说明回归方程显著,即,,X,,X等变量联合起来确实对粮食产XXX35124
量Y有显著性影响。
,H?t检验:分别针对:=0(j=1,2,3,4,5),给定显著性水平,=0.05,查tj0
,^t(n,k),,分布表得自由度为n-k=12的临界值2.179,由表中数据得:、、,,122
,
t(n,k),,,对应的t统计量的绝对值大于2.179,这说明在显著性水平=0.053,2
,HXXX下,分别应当拒绝:=0(j=1,2,3),也就是说,,对Y都有显著j0312
,,
t(n,k),,,性影响。另外、对应的t统计量的绝对值小于2.179,这说明5,42
,HX,X在显著性水平=0.05下,分别应当接受:=0(j=4,5),即,对Yj054
,X没有显著性影响。当在显著性水平=0.2的条件下,可不拒绝对Y有显著性4
影响,当在显著性水平=0.5的条件下,可不拒绝对Y有显著性影响。 X,5
?综上所述:该模型可决系数很高,F检验值明显显著。但当=0.05时,不仅,
,的系数的t检验不显著,而且,得符号与预期相反,这表明很可XXXX5544
能存在多重共线性。
3.各解释变量互相之间的相关系数较高,证实确实存在严重多重共线性。
2经比较,新加入的方程=0.958348,改进最大,对其作t检验:针对:HXR30
=0,给定显著性水平α=0.05,查t分布表得自由度为n-k=12的临界值,3
,
2.179,对应得t统计量为-5.394803,其绝对值大于2.179,所以t(n,k),,,32
拒绝,即的t检验显著,选择保留。 HXX033
2由图可知,在,基础上加入后的=0.9752改进最大,且在给定显著XXXR312
^性水平α=0.05下,自由度为n-k=12的临界值t(n,k),2.179,对应的t,,22
,检验数为3.3485,其绝对值大于2.179,即t检验显著。而加入时,对应,X44的t检验数-1.3010的绝对值小于2.179,所以参数的t检验不显著,甚至XX44
,2,参数的符号也不合理。加入X后,=0.9582有所下降,对应的t检验数R55
0.9798的绝对值小于2.179,所以X参数的t检验不显著。所以保留。 X52
2当加入X时,有所增加,但X的参数的t检验的绝对值为1.548小于2.179,R44
2XX所以t检验不显著,且参数为负值不合理。当加入时,有所下降,且的R55参数的t检验的绝对值为0.368,小于2.179,即其参数的t检验不显著。从相关
XXXX系数矩阵也可以看出,、与其他变量相关度高,这说明主要是、引5544起的多重共线性,应予以剔除。
5.得出最后的回归模型
最后修正严重多重共线性影响后的回归结果为
,
XXX=—11978.18+5.255935+0.408432—0.194609 Y312
t= (-0.851151)(19.56828)(3.348522)(-3.568637)
22=0.979593 =0.975220 F=224.0086 DW=1.528658 RR
这说明,在其他因素不变的情况下,当农业化肥使用量(X)每增加1万千克,1
粮食播种面积(X)每增加1千公顷,成灾面积(X)每减少1公顷,平均来23
说粮食产量(Y)将分别增加5.255935万吨,0.408432万吨和0.194609万吨 四(思考题
1.参数通过显著性检验究竟意味着什么,
说明实验结果符合原假设,对所要研究的
有显著影响
2.判定系数大小对选择模型的有何指导意义,
判定系数R的计算公式为: R = R接近于1表明Y与X1, X2 ,„, Xk之间的线性关系程度密切;R接近于0表明Y与X1, X2 ,„, Xk之间的线性关系程度不密切。如果样本回归线对样本观测值拟合程度越好,个样本观测点与回归线靠的越近,有样本回归作出解释的离差平方和在总离差平方和中占得比重也将越大,反之拟合程度越差,这部分所占的比重越小,所以可以作为度量回归模型对样本观测值拟合优度的指标。
二、自相关
1.将消费模型假设为
,
=++ YXu,,ttt12
其中为家庭开支,为家庭收入,为随机误差项。 YXuttt
2.回归结果
,
Y=81.23361 + 0.782937 Xtt
Se=(180.2928) (0.032038)
t=(0.45056) (24.43765)
2R =0.955214 F=597.1988 DW=1.233658
模型检验:
? 经济意义检验:因为= 0.782937,表示居民收入每增加1元,居民消费水,2
平提高0.782937元,这与经济学中的边际消费倾向的意义相符。
2R? 拟合优度:由图中数据可得=0.955214,方程可决系数较高,这说明模型
对样本的拟合很好。
H,,? F检验:针对:=0,给定显著性水平=0.05,在F分布表中查出自由02
F度为k-1=1,和n-k=28的临界值(1,28)=4.2,由图中可得到,
FH,F=597.1988>(1,28)=4.2,应拒绝原假设:=0,这说明回归方程显著。 ,02
H,,? t检验:针对:=0,给定显著性水平=0.05,查t分布表得自由度为02
n-k=28的临界值2.048,由图中可得到的t检验量为24.43765,因t(n,k),,2
为24.43765>2.048,所以拒绝原假设,即回归方程显著。 t(n,k),,2
? 综上所述,该模型可决系数高,t检验和F检验都显著。
二(根据回归结果,算出边际消费倾向,并对是否显著不为1给出检验过程。
1.根据回归结果,可以得出边际消费倾向为=0.782937,即居民收入每增加1,2
元,居民消费水平提高0.782937元
2.检验::针对:=1,给定显著性水平=0.05,查t分布表得自由度为H,,,022
n-k=28的临界值2.048,由图中可得到的t检验量为24.43765,所以t(n,k),,2
解释变量的系数估计值的误差为:0.782937/24.43765=0.032,所以t值为(0.782937-1)/0.032=-6.783,因为|-6.783|>t(n,k),2.048,所以拒绝原假,2
设,即的显著性水平不为1。 ,2
三(检验数据中是否存在自相关
1.该回归方程可决系数很高,归回系数均显著,对样本容量为30,一个解释变量的模型,5%的显著水平,查DW统计表可知,=1.352,=1.489,模型中ddUL
DW=1.233658<,显然消费模型中有正自相关。 dL
2、通过残差图,可以看出残差的变动有系统模式,连续为正和连续为负,表明残差项存在一阶正自相关。
3.因为存在正自相关,所以模型中的t检验和F检验统计量的结论不可信,需采取补救措施。
四(用DW值来估计ρ,据此ρ做广义差分来消除自相关性,给出结果并检验和解释
DW,,,1. 用DW来估计,因为DW的值为1.233658,=1-,所以=0.383171 2
2.得到广义差分方程:
YYXXv,,-0.383171=(1-0.383171)+(-0.383171)+ tt,1tt,1t12
3.对上述广义差分方程进行回归,在EViews命令栏中输入“ ls Y-0.383171*Y(-1)
c X-0.383171*X(-1)”
4.由图中可得回归方程为
,*,=37.97907 + 0.782798 YXtt
Se= (114.4003) (0.032591))
t = (0.331984) (24.01861)
2 =0.955290 F=576.8937 DW=1.536750 R
*,其中=-0.383171,=-0.383171 YYXXYXtt,1tt,1tt
5.检验:?由于使用了广义差分数据,样本容量减少了一个,为29个,查1%显著性水平的DW统计表可知=1.119,=1.254,因为模型中DW=1.536750> dddUUL
所以在1%显著性水平下广义差分模型中已无自相关。
2?拟合优度:由图中数据可得=0.955290,方程可决系数较高,这说明模型对R
样本的拟合很好
?F检验:针对:=0,给定显著性水平=0.05,在F分布表中查出自由度H,,02
为k-1=1,和n-k=27的临界值(1,27)=4.21,由图中可得到F=597.1988>(1,FF,,27)=4.21,应拒绝原假设:=0,这说明回归方程显著。 H,02
?t检验:针对:=0,给定显著性水平=0.05,查t分布表得自由度为n-k=27H,,02
t(n,k),的临界值2.052,由图中可得到的t检验量为24.01861,因为,2
t(n,k),24.01861>2.052,所以拒绝原假设,即回归方程显著。 ,2
2R6.综上所述,此模型无自相关性,且可决系数,t,F统计量也均达到理想水
,37.97907平。且由差分方程有,==61.5715,由此,我们得到最终的居民消11,0.383171
费模型为YX=61.5715+0.782798。由消费模型可知,居民边际消费倾向为tt
0.782798,即居民人均收入每增加1元,平均说来人均消费支出将增加0.782798元。
五(假定为ar(1),用科克兰内-奥克特法来消除自相关性,给出结果并检验和解释
1.在主菜单选择Quick/Generate Series,在弹出的对话框中输入e=resid,点击
eOK得到残差序列 t
,,
ee,回归方程为=0.358122,由此可知=0.358122 tt,1
3.对模型进行广义差分,得到广义差分方程
YYXXv,,-0.358122=(1-0.358122)+(-0.358122)+ tt,1tt,1t12
4. 对上述广义差分方程进行回归,在EViews命令栏中输入“ls Y-0.358122*Y(-1)
c X-0.358122*X(-1)”,回车后得到方程输出结果
5.由图中可得回归方程为
,*,=43.6550 + 0.781800 YXtt
Se =(119.0241) (0.032749)
t =(0.366779) (23.87269)
2 =0.954767 F=569.9053 DW=1.497580 R
*,其中=-0.358122,=-0.358122 YYXXYXtt,1tt,1tt
6.检验:?由于使用了广义差分数据,样本容量减少了一个,为29个,查1%显著性水平的DW统计表可知=1.119,=1.254,因为模型中DW=1.497580> dddUUL
所以在1%显著性水平下广义差分模型中已无自相关,不必再进行迭代。
2?拟合优度:由图中数据可得=0.954767,方程可决系数较高,这说明模型对R
样本的拟合很好
?F检验:针对:=0,给定显著性水平=0.05,在F分布表中查出自由度H,,02
为k-1=1,和n-k=27的临界值(1,27)=4.21,由图中可得到F=569.9053>(1,FF,,27)=4.21,应拒绝原假设:=0,这说明回归方程显著。 H,02
?t检验:针对:=0,给定显著性水平=0.05,查t分布表得自由度为n-k=27H,,02
t(n,k),的临界值2.052,由图中可得到的t检验量为23.87269,因为,2
t(n,k),23.87269>2.052,所以拒绝原假设,即回归方程显著。 ,2
2R7(综上所述,此模型无自相关性,且可决系数,t,F统计量也均达到理想水
,43.6550平。且由差分方程得,==68.0114,由此,我们得到最终的居民消11,0.358122
YX费模型为=68.0114+0. 0.781800。由消费模型可知,居民边际消费倾向为tt
0.7818,即居民人均收入每增加1元,平均说来人均消费支出将增加0.7818元。
1、什么是总体回归函数和样本回归函数,他们的区别是什么, 将总体因变量的条件期望表示为解释变量的某种函数,这个函数就称为总体回归
^^^函数,其一般表达式为:E(Y|Xi)=f(Xi) 样本回归函数:将应β1,β2X,eY,ii变量Y的样本观测值的条件均值表示为解释变量的某种函数。 区别:首先,总体回归函数虽然未知,但是它是确定的;而由于从总体中每次抽样都能获得一个样本,就都可以拟合一条样本回归线,所以样本回归线是随抽样波动而变化的,可以有许多条。所以,样本回归线还不是总体回归线,至多只是
^^
ββ未知的总体回归线的近似反映。其次,总体回归函数的参数1和2是随抽样而变化的随机变量.此外,总体回归函数中的ui 是不可直接观测的;而样本回归函数中的ei是只要估计出样本回归的参数就可以计算的数值。 2、为什么要在对参数做最小二乘估计之前,要对模型提出古典假定, 为了使对抹胸的估计具有良好的统计性质,在计量经济研究中对无法直接观测的随机扰动项ui的分布,需要做如下一些基本假定:(1)零均值假定(2)同方差假定(3)无自相关假定(4)随机扰动项ui与解释变量Xi不相关(5)正态假定 以上称为古典假定。
3、对参数假设检验的基本思想是什么,
在所估计样本回归系数概率分布性质已确定的基础上,在对总体回归系数某种原假设(或称零假设)成立的条件下,利用适当的有明确概率分布的统计量和给定的显著性水平α,构造一个小概率事件,判断原假设结果合理与否,是否基于“小概率事件不易发生”的原理,可以认为小概率事件在一次观察中基本不会发生,如果小概率事件竟然发生了,就认为原假设不真,从而拒绝原假设,不拒绝备择假设。
4、相关分析和回归分析之间的关系是什么,
它们都是对变量间的相关关系做研究,二者可以相互补充。相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在一定程度的相关关系时,进行回归分析去寻求相关的具体数学形式才有实际意义。同时,在进行相关分析是如果要确定具体确定变量间相关的数学形式,又要依赖于回归分析,而且相关分析中相关系数确定也是建立在回归分析基础上的。
5、为什么要做F检验,
由于多元线性回归模型包含多个解释变量,他们同被解释变量之间是否存在显著 的线性关系,还需要进一步作出判断。
6、多远线性回归分析中为什么要研究修正后的判定系数,
决系数只涉及变差,没有考虑自由度。显然,如果用自由度去校正所计算的变差,可以纠正解释变量个数不同引起的对比困难。因为在样本容量一定的情况下,增加解释变量必定使得待估参数的个数增加,从而会损失自由度。为此,可以用自
2_2R由度去修正多重可决系数R中的残差平方和,从而引出可决系数。 7、多重共线性的检验
(1)简单相关系数检验法(2)方差扩大(膨胀)因子法(3)直观判断法(4)逐步回归检验法
8.多重共线性的补救措施
修正多重共线性的经验方法:删除变量法、增大样本容量、变换模型形式、利用
非样本先验信息、横截面数据与时序数据并用、变量变换
9.多重共线性的后果
(1)参数的估计值不确定(2)参数估计值方差无限大
10.产生异方差的原因:(1)模型设定误差(2)测量误差的变换(3)截面数据中总体各单位差异
11.异方差的后果:(1)参数的OSL估计仍然无偏(2)方差不再是最小的(3)古典假定下用来检验假设的统计量可能不再成立(4)Y的预测无效
12.异方差的检验:(1)图示检验法(2)Goldenfeld-Quandt检验(3)White检验(4)ARCH检验(5)Glejser检验
13.异方差的补救措施:(1)对模型变换(2)加权最小二乘法(3)模型的对数变换(广义最小二乘法)14.自相关产生(序列相关)的原因:(1)经济系统的惯性(2)经济活动的滞后效应(3)数据处理造成的相关(4)蛛网现象(5)模型设定偏误 15.自相关的后果:当模型存在相关时,根据普通最小二乘法估计出的参数估计量仍具有线性特性和无偏性,单不再具有有效性;用于参数显著性的检验统计量,要涉及到参数估计量的标准差,因而参数检验也失去意义。
16.自相关的检验:(1)图示检验法(2)DW检验法(3)LM检验
17.自相关的补救:(1)广义差分法(2)自相关系数ρ的确定
18.估计自相关参数ρ有哪些不同的方法说明基本思路
(1)利用DW统计量(大样本情况下)(2)科克伦奥克特迭代法(3)德宾两步法 基本思路:OSL方法估计原模型,得到随机干扰项的近似估计值,然后利用近似估计值求得随机干扰项相关系数的估计量。