于是,在1-(的置信度下,总体均值E(Y|X
)的置信区间为
在上述收入-消费支出例中,得到的样本回归函数
则在 X
=1000处, Ŷ
= –103.172+0.777×1000=673.84
而
因此,总体均值E(Y|X=1000)的95%的置信区间为: 673.84-3.306(61.05< E(Y|X=1000) <673.84+3.306(61.05
或 (533.05, 814.62)
同样地,对于Y在X=1000的个体值,其95%的置信区间为: (372.03, 975.65)
总体回归函数的置信带(域) 个体的置信带(域)
对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间)(1)样本容量n越大,预测精度越高,反之预测精度越低;
(2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。
第四章 多元线性回归模型的参数估计
一、多元线性回归模型
1、多元线性回归模型的形式 一般形式为:
i=1,2,3…… (2.3.1)其中k为解释变量的数目;
习惯上把常数项看成为一个虚变量的系数,在参数估计过程中该虚变量的样本观测值始终取1。这样:模型中解释变量的数目为(k+1)。
多元线性回归模型的矩阵
达式为:(2.3.2)
二、多元线性回归模型的参数估计
1、普通最小二乘估计 普通最小二乘估计
随机抽取被解释变量和解释变量的n组样本观测值:
如果模型的参数估计值已经得到,则有: i=1,2,3…n(2.3.3)
得到,于是,参数的最小二乘估计值为
4、多元回归方程及偏回归系数的含义
称为多元回归方程
多元回归
是以多个解释变量的固定值为条件的回归分析,并且所获得的是诸变量X值固定时Y的平均值。诸(i称为偏回归系数
· 偏回归系数的含义如下:
(
度量着在X
,X
,…,X
保持不变的情况下,X
每变化1个单位时,Y的均值E(Y)的变化,或者说(
给出X
的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。
三、OLS估计量的统计性质
1、线性性 2、无偏性 3、最小方差性 若B
是B的任一线性无偏估计量,则有
四、多元线性回归模型的统计检验:拟合优度检验 1、可决系数与调整的可决系数 总离差平方和的分解:记(总离差平方和)、(回归平方和)、剩余平方和
则
TSS=ESS+RSS
可决系数
该统计量越接近于1,模型的拟合优度越高。
调整的可决系数 在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:
其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。
方程的显著性检验(F检验)
方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。
1、方程显著性的F检验 即检验模型Yi=(0+(1X1i+(2X2i+ ( +(kXki+(i i=1,2, (,n中的参数(j是否显著不为0。
可提出如下原假设与备择假设:H0: (0=(1=(2= ( =(k=0 H1: (j不全为0
F检验的思想来自于总离差平方和的分解式:TSS=ESS+RSS
如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。 因此,可通过该比值的大小对总体线性关系进行推断。
根据数理统计学中的知识,在原假设H
成立的条件下,统计量
服从自由度为(k , n-k-1)的F分布 给定显著性水平(,可得到临界值F((k,n-k-1),由样本求出统计量F的数值,通过 F( F((k,n-k-1) 或 F(F((k,n-k-1)来拒绝或接受原假设H
,以判定原方程总体上的线性关系是否显著成立。
对于中国居民人均消费支出的例子:一元模型:F=285.92 二元模型:F=2057.3 给定显著性水平( =0.05,查分布表,得到临界值:一元例:F((1,21)=4.32 二元例: F((2,19)=3.52 显然有 F( F((k,n-k-1)
即二个模型的线性关系在95%的水平下显著成立。
2、关于拟合优度检验与方程显著性检验关系的讨论
在中国居民人均收入-消费一元模型中,
在中国居民人均收入-消费二元模型中,
变量的显著性检验(t检验)
方程的总体线性关系显著(每个解释变量对被解释变量的影响都是显著的。因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的 t 检验完成的。
1、t统计量 由于
以Cii表示矩阵(X’X)-1 主对角线上的第i个元素,于是参数估计量的方差为:
其中(
为随机误差项的方差,在实际计算时,用它的估计量代替:
2、t检验 设计原假设与备择假设:H0:(i=0 (i=1,2…k) H1:(i(0 给定显著性水平(,可得到临界值t(/2(n-k-1),由样本求出统计量t的数值,通过|t|( t(/2(n-k-1) 或 |t|(t(/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。
注意:一元线性回归中,t检验与F检验一致 一方面,t检验与F检验都是对相同的原假设H0:(1=0 进行检验;
另一方面,两个统计量之间有如下关系:
在中国居民人均收入-消费支出二元模型例中,由应用软件计算出参数的t值:
给定显著性水平(=0.05,查得相应临界值: t0.025(19) =2.093。可见,计算的所有t值都大于该临界值,所以拒绝原假设。即:包括常数项在内的3个解释变量都在95%的水平下显著,都通过了变量显著性检验。
参数的置信区间 参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道:
容易推出:在(1-()的置信水平下(i的置信区间是
其中,t(/2为显著性水平为( 、自由度为n-k-1的临界值。
第五章 异方差性
一、异方差的概念
1、异方差的概念 对于模型 i=1,2,…,n 同方差性假设为 i=1,2,…,n 如果出现 i=1,2,…,n即对于不同的样本点,随机误差项的方差不再是常数,则认为出现了异方差性。
2、异方差的类型
(1)单调递增型:(
随X的增大而增大;(2)单调递减型:(
随X的增大而减小;(3)复杂型:(
与X的变化呈复杂形式。
3、实际经济问
中的异方差性
例如:在截面资料下研究居民家庭的储蓄形为Yi=(0+(1Xi+(i Yi和Xi分为第i个家庭的储蓄额和可支配收入。在该模型中, (i的同方差假定往往不符合实际情况。对高收入家庭来说,储蓄的差异较大;低收入家庭的储蓄则更有规律性(如为某一特定目的而储蓄),差异较小。因此,(i的方差往往随Xi的增加而增加,呈单调递增型变化。
例如,以绝对收入假设为理论假设、以截面数据作样本建立居民消费函数: Ci= (0+(1Yi+(i 将居民按照收入等距离分成n组,取组平均数为样本观测值。一般情况下:居民收入服从正态分布,处于中等收入组中的人数最多,处于两端收入组中的人数最少。而人数多的组平均数的误差小,人数少的组平均数的误差大。所以样本观测值的观测误差随着解释变量观测值的增大而先减后增。如果样本观测值的观测误差构成随机误差项的主要部分,那么对于不同的样本点,随机误差项的方差随着解释变量观测值的增大而先减后增,出现了异方差性。
例如,以某一行业的企业为样本建立企业生产函数模型: 产出量为被解释变量,选择资本、劳动、技术等投入要素为解释变量,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,为复杂型的一种。
二、异方差性的后果
1、参数估计量非有效 普通最小二乘法参数估计量仍然具有无偏性,但不具有有效性。因为在有效性证明中利用了E(NN’)=(
I而且,在大样本情况下,参数估计量仍然不具有渐近有效性,这就是说参数估计量不具有一致性。
以一元线性回归模型为例进行说明:
(1)仍存在无偏性:证明过程与方差无关 由于(2.4.1)的参数的OLS估计量为: 故 (2.4.2)
(2)不具备最小方差性 由于(注:交叉项的期望为零) 在μ
为同方差的假定下, (2.4.3)
在μ
存在异方差的情况下 假设 并且记异方差情况下的OLS估计为,则(2.4.4)对大多数经济资料有 比较(2.4.3)与(2.4.4), (2.4.5)
2、变量的显著性检验失去意义 关于变量的显著性检验中,构造了t 统计量(2.4.6) 在该统计量中包含有随机误差项共同的方差,并且有t统计量服从自由度为(n-k-1)的t分布。如果出现了异方差性,t检验就失去意义。 其它检验也类似。
3、模型的预测失效 一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差(
。 所以,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
3、 异方差性的检验 1、检验方法的共同思路由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方
差。那么:检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。问题在于用什么来表示随机误差项的方差 一般的处理方法:首先采用OLS法估计模型,以求得随机误差项的估计量(注意:该估计量是不严格的)我们称之为近似估计量,用来表示于是有 (2.4.7)即用来表示随机误差项的方差。
2、图示检验法 (1)用X-Y的散点图进行判断 看是否存在明显的散点扩大、缩小或复杂型趋势(即不在一个固定的带型域中)
(2)X-的散点图进行判断 看是否形成一斜率为零的直线
3、解析法
(1)戈德菲尔德-匡特(Goldfeld-Quandt)检验 G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。 G-Q检验的思想: 先将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差之比构造统计量进行异方差检验。由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之就会等于1(同方差)、或小于1(递减方差)。
G-Q检验的步骤:①将n对样本观察值(Xi,Yi)按解释变量观察值Xi的大小排队;②将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2;③对每个子样分别求回归方程,并计算各自的残差pfang4和。分别用与表示对应较小X
与较大X
的子样本的残差平方和(自由度均为);④提出假设: 与分别为两个子样对应的随机项方差;⑤构造统计量;⑥检验。给定显著性水平α,确定F分布表中相应的临界值 。若,存在递增异方差;反之,不存在异方差。
(2)戈里瑟(Gleiser)检验与帕克(Park)检验
戈里瑟检验与帕克检验的思想:以或为被解释变量,以原模型X
为解释变量,建立如下方程: i=1,2,…,n 或 i=1,2,…,n 选择关于变量X
的不同的函数形式(如或,对方程进行估计并进行显著性检验;如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。如Park检验法中,对一般的方程形式:通过检验α的显著性,若存在统计上的显著性,表明存在异方差性。注意:由于f(X
)的具体形式未知,因此需要进行各种形式的试验。
四、异方差性的估计——加权最小二乘法(WLS)
1、加权最小二乘法的基本思想 加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。 例如,在递增异方差下,对来自较小Xi的子样本,其真实的总体方差较小,Yi与回归线拟合值之间的残差ei的信度较大,应予以重视; 而对较大Xi的子样本,由于真实总体的方差较大,残差反映的信息应打折扣。
加权最小二乘法就是对加了权重的残差平方和实施OLS法:对较小的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数。
2、 一个例子 例如,如果在检验过程中已经知道:即随机误差项的方差与解释变量X
之间存在相关性,那么可以用
去除原模型,使之变成如下形式的新模型:
在该模型中,存在即满足同方差性。于是可以用OLS估计其参数,得到关于参数的无偏的、有效的估计量。这就是加权最小二乘法,在这里权就是
对于模型 Y=XB+N (2.4.8) 存在
(2.4.9) 即存在异方差性。设其中 用D
左乘(2.4.8)两边,得到一个新的模型,(2.4.10)即 该模型具有同方差性。因为
于是,可以用OLS法估计模型(2.4.10),得
(2.4.11)
这就是原模型(2.4.8)的加权最小二乘估计量,它是无偏、有效的。这里权矩阵为D
,它来自于矩阵W 。
5、加权最小二乘法具体步骤:①选择普通最小二乘法估计原模型,得到随机误差项的近似估计值;②建立的数据序列;③选择加权最小二乘法,以序列作为权,进行估计得到参数估计量。实际上是以乘原模型的两边,得到一个新模型采用普通最小二乘法估计新模型
6、注意 在实际建模过程中,尤其是截面数据作样本时,人们通常并不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据作样本时。 如果确实存在异方差,则被有效地消除了;如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法。
五、
—某地区居民储蓄模型
某地区31年来居民收入与储蓄额数据表
1、普通最小二乘估计
⑵ G-Q检验①求两个子样本(n1=n2=12)回归方程的残差平方和RSS1与RSS2;
依据上述信息检验是否存在异方差,写出检验步骤F
=2.97
②计算F统计量 F=RSS
/RSS
=769899.2/162899.2=4.726 ③查表 在5%的显著性水平下,第1和第2自由度均为(31-7)/2-2=10的F分布临界值为 F
=2.97 由于 F=4.72 > F0.05(10,10)= 2.97 因此,否定两组子样方差相同的假设,从而该总体随机项存在递增异方差性。
第六章 序列相关性
普通最小二乘法(OLS)要求计量模型的随机误差项相互独立或序列不相关。
如果模型的随机误差项违背了互相独立的基本假设的情况,称为序列相关性。
一、序列相关性
1、序列相关的概念
对于模型 随机误差项互不相关的基本假设表现为: 如果对于不同的样本点,随机误差项之间不再是不相关的,而是存在某种相关性,则认为出现了序列相关性。在其他假设仍成立的条件下,序列相关即意味着
如果仅存在 称为一阶序列相关,或自相关(autocorrelation)。这是最常见的一种序列相关问题。自相关往往可写成如下形式: 其中:(被称为自协方差系数或一阶自相关系数。
2、序列相关产生的原因(1)惯性
(2)设定偏误:模型中遗漏了显著的变量
(3)设定偏误:不正确的函数形式
(4)蛛网现象
5)数据的“编造”
二、序列相关性的后果
1、参数估计量非有效
· OLS参数估计量仍具无偏性
· OLS估计量不具有有效性
· 在大样本情况下,参数估计量仍然不具有渐近有效性,这就是说参数估计量不具有一致性
2、变量的显著性检验失去意义
在关于变量的显著性检验中,当存在序列相关时,参数的OLS估计量的方差增大,
差也增大,因此实际的 t 统计量变小,从而接受原假设(i=0的可能性增大, 检验就失去意义。
采用其它检验也是如此。
3、模型的预测失效
区间预测与参数估计量的方差有关,在方差有偏误的情况下,使得预测估计不准确,预测精度降低。所以,当模型出现序列相关性时,它的预测功能失效。
三、序列相关性的检验 1、基本思路 序列相关性检验方法有多种,但基本思路是相同的。首先采用普通最小二乘法估计模型,以求得随机误差项的“近似估计量”:;然后,通过分析这些“近似估计量”之间的相关性,以达到判断随机误差项是否具有序列相关性的目的。
2、图示法 由于残差可以作为的估计,因此如果存在序列相关,必然会由残差项反映出来,因此可利用的变化图形来判断随机项的序列相关性。
2、解析法
(1)回归检验法 以为被解释变量,以各种可能的相关量,诸如以、、、等为解释变量,建立各种方程:
对各方程估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在序列相关性。具体应用时需要反复试算。回归检验法的优点是:一旦确定了模型存在序列相关性,也就同时知道了相关的形式;它适用于任何类型的序列相关性问题的检验。
(2)杜宾-瓦森检验法 D-W检验是杜宾和瓦森于1951年提出的一种检验序列自相关的方法。
该方法的假定条件是:(1)解释变量 X非随机;(2)随机误差项(i为一阶自回归形式:(
=((
+(
(3)回归模型中不应含有滞后应变量作为解释变量,即不应出现下列形式:Y
=(
+(
X
+((
X
+(Y
+(
(4)回归含有截距项;(5)没有缺落数据。
D.W.统计量 Durbin和Watson假设:,即(
不存在一阶自回归;,即(
存在一阶自回归。并构造如下统计量:
该统计量的分布与出现在给定样本中的X值有复杂的关系,因此其精确的分布很难得到。但是,Durbin和Watson成功地导出了临界值的下限d
和上限d
,且这些上下限只与样本的容量n和解释变量的个数k有关,而与解释变量X的取值无关。
检验步骤:①计算该统计量的值;②根据样本容量n和解释变量数目k查D.W.分布表,得到临界值d
和d
;③按照下列准则考察计算得到的D.W.值,以判断模型的自相关状态。
可以看出,当D.W.值在2左右时,模型不存在一阶自相关。
如果存在完全一阶正相关,即 (=1,则 D.W.( 0;如果存在完全一阶负相关,即(= -1,则 D.W.( 4;如果完全不相关,即(=0, 则 D.W.(2
4、 具有序列相关性模型的估计
如果模型被检验证明存在序列相关性,则需要发展新的方法估计模型。最常用的方法是广义最小二乘法、一阶差分法和广义差分法。
1、广义最小二乘法 对于模型 Y=XB+N如果存在序列相关,同时存在异方差,即有
2、一阶差分法 一阶差分法是将原模型 i=1,2,…,n 变换为 i=1,2,…,n 其中 …
如果原模型存在完全一阶正自相关,即在(
=((
+(
中,(=1。 (2.5.10)可变换为:(Y
= (
(X
+(
由于(
不存在序列相关,该差分模型满足应用OLS法的基本假设,用OLS法估计可得到原模型参数的无偏的、有效的估计量。即使对于非完全一阶正相关的情况,只要存在一定程度的一阶正相关,差分模型就可以有效地加以克服。
3、广义差分法
如果原模型存在 可以将原模型变换为
模型为广义差分模型,该模型不存在序列相关问题。采用OLS法估计可以得到原模型参数的无偏、有效的估计量。广义差分法可以克服所有类型的序列相关带来的问题,一阶差分法是它的一个特例。
4、随机误差项相关系数(的估计 应用广义差分法,必须已知不同样本点之间随机误差项的相关系数(1, (2,…, (
。实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计。常用的方法有:(1)科克伦-奥科特迭代法。(2)杜宾两步法
(1)科克伦-奥科特迭代法
首先,采用OLS法估计原模型Yi=(0+(1Xi+(i得到的随机误差项的“近似估计值”,并以之作为观测值采用OLS法估计下式得到,作为随机误差项的相关系数的第一次估计值。其次,将上述代入广义差分模型
并对之进行OLS估计,得到再次,将代回原模型,计算出原模型随机误差项的新的“近似估计值”,并以之作为模型的样本观测值,采用OLS法估计该方程,得到作为相关系数的第二次估计值。类似地,可进行第三次、第四次迭代。
关于迭代的次数,可根据具体的问题来定。一般是事先给出一个精度,当相邻两次(1,(2,(,(L的估计值之差小于这一精度时,迭代终止。实践中,有时只要迭代两次,就可得到较满意的结果。两次迭代过程也被称为科克伦-奥科特两步法。
(2)杜宾两步法 该方法仍是先估计(
,(
,(,(
,再对差分模型进行估计。第一步,变换差分模型为下列形式:
采用OLS法估计该方程,得各前的系数的估计值。 第二步,将估计的代入差分模型:
采用OLS法估计,得到参数,的估计量,记为,。
于是:,
五、案例:地区商品出口模型
1、某地区商品出口总值与国内生产总值的数据
(2)D.W.检验
在5%在显著性水平下,n=19,k=2(包含常数项),查表得d
=1.18,d
=1.40,由于DW=0.9505
du=1.39(注:样本容量为18个),已不存在自相关。
⑵ 广义差分法
①采用杜宾两步法估计( 1)估计模型
得
2)将代入差分模型
OLS法估计得
由于DW>=1.39(注:样本容量为19-1=18个),已不存在自相关。于是原模型估计式为:
②采用科克伦-奥科特迭代法估计(
一阶广义差分的结果:
由于DW>du=1.39(注:样本容量为18个),已不存在自相关。
二阶广义差分的结果:
由于DW>du=1.38(注:样本容量为19-2=17个),已不存在自相关。 但由于AR[2]前的系数的t值为-0.15,在5%的显著性水平下并不显著,说明随机干扰项不存在二阶序列相关性,模型中应去掉AR[2]项。
案例:服装市场需求函数
1、建立模型 根据理论和经验分析,影响居民服装类支出的主要因素有:可支配收入、居民流动资产拥有量、服装价格指数、物价总指数。已知某地区的有关资料,根据散点图判断,建立线性服装消费支出模型: Y=(
+(
X+(
K+(
P
+(
P
+(
2、样本数据
3、估计模型
由于R
较大且接近于1,而且 F=638.4,大于临界值:F
=15.19,故认为服装支出与上述解释变量间总体线性关系显著。但由于参数K的估计值的t检验值较小(未能通过检验),故解释变量间存在多重共线性。
(2)检验简单相关系数
各解释变量间存在高度相关性,其中尤其以P1,P0间的相关系数为最高。
(3)找出最简单的回归形式
可见,应选①为初始的回归模型。
(4)逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。
4、讨论:①在初始模型中引入P
,模型拟合优度提高,且参数符号合理,但P
的t检验未通过;②再引入K,拟合优度虽有提高,但K与P
的t检验未能通过,且X与P
的t检验值及F检验值有所下降,表明引入K并未对回归模型带来明显的“好处”,K可能是多余的;③去掉K,加入P
,拟合优度有所提高,且各解释变量的t检验全部通过,F值也增大了。
④将4个解释变量全部包括进模型,拟合优度未有明显改观,K的t检验未能通过,K显然是多余的。
5、结论 回归方程以Y=f(X,P1,P0)为最优:Y=-12.45+0.10X-0.19P
+0.31P
PAGE
17
_1274874910.unknown
_1274886091.unknown
_1274894514.unknown
_1274894592.unknown
_1274894835.unknown
_1274895170.unknown
_1274895201.unknown
_1274895258.unknown
_1274895159.unknown
_1274894814.unknown
_1274894547.unknown
_1274894560.unknown
_1274894532.unknown
_1274892180.unknown
_1274893449.unknown
_1274894491.unknown
_1274892194.unknown
_1274886974.unknown
_1274890738.unknown
_1274892164.unknown
_1274886098.unknown
_1274879256.unknown
_1274885509.unknown
_1274885546.unknown
_1274886048.unknown
_1274886063.unknown
_1274885563.unknown
_1274885407.unknown
_1274885459.unknown
_1274885474.unknown
_1274885349.unknown
_1274885375.unknown
_1274879284.unknown
_1274885313.unknown
_1274876950.unknown
_1274879207.unknown
_1274879226.unknown
_1274877855.unknown
_1274876471.unknown
_1274876871.unknown
_1274874929.unknown
_1274809560.unknown
_1274813773.unknown
_1274814351.unknown
_1274815230.unknown
_1274813812.unknown
_1274809685.unknown
_1274810554.unknown
_1274809652.unknown
_1274099013.unknown
_1274099096.unknown
_1274099489.unknown
_1274099073.unknown
_1274096821.unknown
_1274096831.unknown
_1274096548.unknown