Chapter4 工具变量法.doc
第1章 两阶段最小二乘法
在模型的基本假定中,解释变量与误差项正交保证了参数估计量的无偏性和一致性。当
这一假定被违背时,称解释变量是内生的。常见的几种情况会导致内生问题:忽略重要的解
释变量、变量的测量误差、变量的联立性。工具变量估计是解决解释变量内生问题的基本方
法。本章介绍工具变量法和两阶段最小二乘法,以及模型内生性检验和过度识别约束检验等
问题。
1.1 变量的内生性
E(')Xu0,如果模型中的解释变量与误差项出现相关,即,称解释变量是内生的。导致解释变量内生性的原因有很多,主要的几个原因包括:模型中忽略了重要的解释变量、变量
因果关系的双向性、变量的测量误差等。
模型中出现内生解释变量时,OLS估计量是不一致的。根据OLS估计量:
,,,,,11111ˆβ,,,,,XXXyβXXXuβXXXu(')(')(')(')(')(')NN (1.1)
由假定Rank(X)=K和大数定律,样本均值的概率极限等于总体均值,可得:
,1Plim(')E(')NXXXXA,,,
,1Plim(')E(')NXuXu0,,。 (1.2)
又由Slustky定理,
,,,111Plim(')NXXA,
,1ˆββ,,,AXuβPlimE(') (1.3)
1.2 工具变量估计
1.2.1 工具变量
在如下模型中,
y = X,+ u
第i个解释变量x为内生解释变量。如果存在变量z,z满足如下两个条件: i
正交条件:与u不相关,即cor(z, u) = 0
相关条件:与x相关,即cor(z, x) , 0,也称为识别约束条件。 i
那么,z被称作x的工具变量。 i
1.2.2 工具变量估计
设回归模型为:
y=Xβ+u (1.4)
其中,解释变量为X(1×K)工具变量为Z(1×K)。Z作为工具变量满足正交条件和识
ˆ别约束条件。在正规方程组XyX'(),,β0中,用Z替换X,
ˆZyX'(),,β0 (1.5)
解此方程组,可得IV估计量为:
,1ˆβ,ZXZy(')' (1.6)
将y=Xβ+u带入估计量中,可得
,,11ˆβ,,,,ZXZXβuβZXZu(')'()(')'
可以证明,
,1ˆββ,,,ZXZuβE()(')'E()
,,11ˆβ,ZXZuuZXZVar()E[(')''(')] 21121,,,,,,,ZXZZXZXX(')'(')(')
即IV估计量是无偏的,但不是有效的。同时,由
,,,111ˆPlim()Plim[(')(')]ββ,,NNZXZu,,,,nn
,,11Plim(')NZXA, ,,n
,1Plim(')E()NZuZu0,,ii,,n
可知,IV估计量是一致的。
1.3 两阶段最小二乘法
设模型中存在K个内生解释变量,存在L=K个工具变量。每个工具变量都必须满足正交条件和相关条件。如果L=K,称为恰好识别;如果L>K,称为过度识别。即利用其中不同的K个工具变量,都可以得到不同的估计量。当然,用任何一组工具变量得到的估计量都是一致的。因此,现在的问题是如何在这L个工具变量中找到K个工具变量使其估计量最有效。这即是两阶段最小二乘法。
1.3.1 TSLS估计
设模型为:
yX,,βu (1.7)
其中,解释变量为X(1×K)工具变量为Z(1×L)。用Z作为工具变量,Z满足正交条
件和识别约束条件。首先回归模型
XZ,,Πv (1.8)
,1,1,1ˆˆˆΠ,ZZZXXZ,,ΠZZZZXPZZZZ,(')'可得('),并提取拟合值(')。令,P为对称ZZ
ˆˆXXPX,幂等矩阵,则。然后,利用做为工具变量回归模型,可得IV估计量为: Z
,,11ˆˆˆβ,,XXXyXPXXPy(')'(')(') (1.9) ZZ
而
ˆˆˆXXXPXXPPXPXPXXX''''()'',,,,。 ZZZZZ
由此可得:
,,11ˆˆˆˆˆˆβ,,XXXyXXXy(')'(')' (1.10)
,1ˆˆˆˆˆˆXXXXXXy(')'而是y对的OLS回归估计量。因此,利用作为工具变量作IV回归与利用替换X作LS回归是等价的。也正因为此,我们称之为两阶段最小二乘法。估计步骤归纳如下。
ˆXXZ,,ΠvStep1:利用X对Z作OLS回归:;提取拟合值。
ˆXStep2:用替换X,直接作OLS回归。
1.3.2 2SLS的渐进特征
假定1:令X表示解释变量(包括常数变量1)。假定存在L个工具变量构成的(1×L)向量Z,满足E(Z'u)=0。Z包含模型中的外生解释变量。如果模型中存在内生变量,则Z必须包含模型以外的外生变量。
假定2:(A)Rank(Z'Z)=L;(B)Rank(Z'X)=K。(A)条件是指L个向量Z不存在完全的线性关系;条件(B)是指Z与X充分线性相关,即所有工具变量都必须满足识别约束条件。条件(B)称为秩条件。秩条件成立的必要条件是L?K。即,工具变量的个数至少等于解释变量的个数,称之为阶条件。
由X =Z,+v(其中,,为L×K矩阵),两侧同时乘Z并求期望可得:
ZXZZ''',,ΠZv
(1.11) ,,E(')E(')ZXZZΠ
,1,,Π[E(')]E(')ZZZX
*-1 *令X=Z, = Z[E(Z 'Z)]E(Z 'X)。在Xβ+u=y两边同时乘以X可得,
***X'Xβ + X'u = X'y (1.12)
求期望可得:
**E(X'X)β= E(X'y) (1.13)
而
*******X'X = X'Z, + X'v, E(X'X) = E(X'Z), + E(X'v) = E(X'Z),
*E(X'Z)= E[(X-v) 'Z] = E[X'Z - v'Z] = E(X'Z)
-1 将, = [E(Z 'Z)]E(Z 'X)带入上两个式子中,可得:
*-1 E(X'X) = E(X'Z) [E(Z'Z)]E(Z'X)
-1 = E(X'Z) [E(Z'Z)]E(Z'X) (1.14)
*-1 E(X'y) = E(X 'Z) [E(Z'Z)] Z'y
注意,上式中Z是(1×L)阶,X是(1×K)阶。因此, X'Z是(K×L)阶,Z 'Z是(L×L)
*阶,Z 'X是(L×K)阶。如果要估计出β,E(X'X)必须是非奇异的,当且仅当E(Z'X)的秩为
*-1 *K。将其带入β = [E(X'X)]E(X'y),可得
*-1 *β = [E(X'X)]E(X'y)
-1 -1-1= {E(X'Z) [E(Z'Z)]E(Z'X)}{E(X'Z) [E(Z'Z)]Z'y} (1.15)
β的TSLS估计量为:
-1,,11ˆβ,XZZZZXXZZZZy'(')(')'(')' (1.16) ,,,,SLS2
1(一致性
由2SLS估计量可得:
,,1-11ˆβ,,XZZZZXXZZZZXβu['(')(')]['(')'()]SLS2,,1-11 (1.17) ,,βXZZZZXXZZZZu['(')(')]['(')']
,,,,,,,,1111-11111NNNNNN ,,βXZZZZXXZZZZu[(')(')(')][(')(')(')]
ˆββ,Plim由大数定律和Slustky定理,可得:。即2SLS估计量具有一致性。 2SLS
2(渐进正态性
,1,1/2Plim(')E(')NZuZu0,,NNormalZu0B'~(,)根据,并由中心极限定理,。同方ii
222BZZZZ,,E(')E(')u=var()u,,差假定下,,。 iiiii
根据Slutsky定理,
,,,,,,,,1111-11111/2ˆNNNNNNNββ,,XZZZZXXZZZZu()[(')(')(')][(')(')(')] (1.18) SLS2
ˆNββ,()定理:在假定1、2以及同方差假定下,渐进服从正态分布,均值为0,方差矩2SLS
阵为
-1,21,E(')E(')E(')XZZZZX (1.19) ,,
,12E(')E(')E(')XZZZZX,其中,可以用样本进行估计,的估计量
为:
N212,ˆˆ,,,()NKu ,i,1i
ˆˆuy,,xβ其中,,而不是第二阶段的残差项。 iiiSLS2
ˆβ的渐进方差估计量为: 2SLS
,1N22121,,ˆˆˆ,,ˆˆˆˆˆ (1.20) Aβ,,,xxXXXPXvar()(')(')('),,,,ZSLSii2i,1,,
3(渐进有效性
在假定1、2以及同方差假定下,利用工具变量z的所有IV估计量中,2SLS估计量是最
有效的。(证明请参见Wooldridge,2000,p96) 1.3.3 2SLS中的假设检验
设模型为:
y = Xβ+ Xβ + u (1.21) 11 22
原假设和备择假设分别为:
H:β=0; H:β?0。 02 12
定义无约束模型和受约束模型分别为:
无约束模型:y = Xβ+ Xβ + u (1.22) 11 22
受约束模型为:y = Xβ+ u (1.23) 11
F检验的具体检验步骤为如下。
设工具变量为Z。(X和X都可以包括内生变量) 1 2
Step1:用Z作为工具变量,利用TSLS估计模型(9.32),计其残差平方和为SSR; U
ˆXStep2:利用OLS方法用X对Z回归,令表示得到的拟合值(N×K);用X对Z回归,1121
ˆX令表示得到的拟合值(N×K); 22
ˆˆˆXXSSRXStep3:利用OLS方法用y对、回归,令表示其残差平方和;用y对回归,令U112
SSR表示其残差平方和。 R
Step4:构建统计量:
2 NSSRSSRSSRK,~(),RU,,U2
SSRSSRK,/RU,,2 FFKNK,,~(,)22SSRNK/(),U
也可以通过类似OLS方法来构建LM统计量
ˆXStep1:用X对Z进行OLS回归,令表示得到的拟合值(N×K);用X对Z进行OLS1121
ˆX回归,令表示得到的拟合值(N×K)。 22
ˆuXStep2:用y对回归,令表示其残差。 1
2ˆˆuXRXStep3:用对、回归,记其未中心化的可决系数为。 12uc
Step4:构建LM统计量
22AsyLMNR,,,,, (1.24) ucK2
1.3.4 异方差稳健推断
ˆβ如果只有假定1、2成立,模型中存在异方差时,的渐进方差估计量为: 2SLS
N,,121ˆˆˆˆˆ,,ˆˆˆ。 (1.25) AuβXXxxXX,var()(')(')('),2SLSiii,1i,,
可以用作构建异方差稳健t统计量。
存在异方差时,对参数约束的稳健LM检验。
uStep1:用Z作为工具变量,利用TSLS用y对X回归,计残差项为; 1
ˆrStep2:用X中每一个变量对X中的所有变量进行OLS回归,提取残差项; 21
ˆ1,,αuvrStep3:利用OLS方法回归方程,计其回归平方和为SSR。 ,,
2()~()NSSRK,,Step4:稳健LM统计量为,其中K表示X中变量的个数。 222
1.3.5 内生变量的显著性检验
1( 单个内生变量的显著性检验
在stata中,单个内生解释变量的显著性检验可以通过condivreg实现。Condivreg利用2SLS或LIML方法回归线性模型,并利用条件似然比(conditional likelihood ratio,简写为CLR) 方法(Moreira (2003),Andrews, Moreira, and Stock (2006))计算内生变量参数估计量的置信区间和概率值。Andrews, Moreira, and Stock (2004)证明,CLR检验是渐进最优的,明显地优于Anderson and Rubin (1949) 检验和由Kleibergen (2002) 及Moreira (2001)提出的LM检验。
例:
. condivreg y1 x1 (y2 = z1 z2 z3), liml interval
. condivreg y1 x1 (y2 = z1 z2 z3 z4), ar lm test(0.1)
2( 多个内生变量的显著性检验
结构方程中内生解释变量显著性检验的Anderson-Rubin统计量(注意,不要与Anderson-Rubin过度识别检验混淆)。原假设为:所有内生解释变量的参数都等于0。对其检验等价于对简化方程中工具变量Z的联合显著性检验。
Anderson-Rubin 卡方统计量 ~卡方分布(自由度为L =被排除的工具变量个数) 2
Anderson-Rubin对于弱工具变量是稳健的。
例:
. ivreg2 lwage exper expersq (educ=fatheduc motheduc), ffirst
1.3.6 工具变量的冗余检验
其中,模型解释变量的个数为K,其中外生解释变量的X个数为K,内生解释变量X112的个数为K,K= K+ K。设工具变量Z =(Z, Z, Z),共有L个。其中Z= X,包含21 212A2B1 1L = K个工具变量。Z, Z分别包含L、L个工具变量,令L= L+ L,则L = K+ L112A2B2A2B2 2A 221 2A + L。检验部分被排除的工具变量Z是否是多余的("redundant")。检验统计量是基于解释2B2B
变量X与工具变量(Z, Z, Z)的典型相关系数。如果X与(Z, Z, Z)的典型相关112A2B112A2B系数比X与(Z, Z)的典型相关系数有了显著提高,则表明工具变量Z不是多余的。统112A2B计量渐进服从自由度为K×L。参见Hall and Peixe (2000) 。 22
1.4 内生性检验与过度识别约束检验
在工具变量估计中,有三个问题是需要关注的。第一,解释变量是否具有内生性。如果没有内生性,则LS估计是一致有效估计量,而TSLS估计量则是一致非有效估计量。如果变量具有内生性,则LS估计没有一致性,而TSLS估计量则具有一致性。即是说,IV估计在保证参数估计计量的一致性特征是有代价的。只有当模型中存在内生解释变量时,TSLS才优于LS。因此,在应用TSLS方法之前,首先应该检验解释变量具有内生性,称之为内生性检验。
第二,工具变量的正交约束条件是否得以满足。工具变量必须满足两个基本条件:相关条件和正交条件。在过度识别的模型中,可以检验正交条件是否成立。因此,工具变量(被排除)的正交检验也叫做过度识别约束检验。过度识别约束检验常用的统计量包括Sargan (1958) 、Basmann's (1960)、Hansen J统计量以及C统计量。实际上,工具变量的正交性检验和解释变量的内生性检验是一个问题的两个方面。
第三,工具变量的有效性问题,即工具变量与内生解释变量必须相关。对于工具变量的有效问题,一般通过偏R2或Shea R2来观察。实践中经常出现的问题是弱工具变量问题。Cragg-Donald和Anderson-Rubin统计量则用于考查弱工具变量问题。
1.4.1 内生性检验
1( Durbin-Wu-Hausman检验
内生性的检验等价于检验plim(X’u) =0。但检验不能通过LS估计的残差项进行。因为LS估计的残差项与X总是不相关的。Hausman(1978)提出了另外一种检验思路,即Hausman
检验。其基本思路是,如果解释变量x具有外生性,那么其对应参数,的OLS估计量具有一致性和有效性,而TSLS估计量具有一致性但没有有效性。所以,如果x是外生的,那么OLS
ˆˆˆˆββd,,ββ估计量与TSLS估计量之间差异的概率极限为0,即Plim d=0,否则Plim LSIVLSIV
d?0。构建Wald统计量:
,1HAsyVar,ddd'[()] (1.26)
ˆˆˆˆˆˆAsyVarAsyVarAsyVarAsyCovββββββ,,,,其中,()()()2(,) LSIVLSIVLSIV
ˆˆˆˆββββHausman(1978)证明,对于参数β的两个一致估计量和,是有效估计量而是EIEI
ˆˆˆβββ,()无效估计量,则与的协方差为0,即 EIE
ˆˆˆˆˆˆCVarCovββββββ,,,,0ov(,)()(,)EEIEEI (1.27) ˆˆˆCovVarβββ,(,)()EIE
ˆˆˆˆββ,ββ,在内生变量的情况下,,。有 ELSIIV
ˆˆˆˆAsyVarAsyVarAsyVarββββ,,,()()() (1.28) LSIVIVLS
因此,H统计量可以表达为
,1HAsyVar,ddd'[()] ,1ˆˆˆˆˆˆ,,,,()'[()()]()ββββββVarVarLSIVIVLSLSIV
21,21,ˆˆˆˆAsyVarβ,XXAsyVarβ,XX,,()()()()前文已经推导出,,。将其以及方差估LSIV
2ˆ,计量带入H统计量可得
211,,ˆˆ,,ˆˆVar,,dXXXX,,()()() (1.29) IVLS,,
H统计量渐进服从K个自由度的卡方分布。 2
2一般情况下,,的估计量分别利用TSLS和LS估计各自的残差项来计算。如Stata中的Hausman命令即是分别计算TSLS和LS各自的
差。但是,Hausman统计量虽然渐进有效,在小样本情况下Var(d)却可能出现负值(或负定矩阵),从而H检验统计量为负值。因
222ˆˆ,,此在实践应用中,,的估计量全部用或全部用。这样保证了Var(d)的广义逆的存在,LSIV
22ˆ,从而保证了检验统计量取正数。如果用作为,的估计量,则 LS
211,,ˆˆˆVardXXXX,,,()[()()] LS
这种统计量由Durbin(1954)、Wu(1973)和Hausman(1978)分别提出。经常被称作Durbin-Wu-Hausman统计量(简写为DWH统计量)。在Stata中,可以利用Hausman命令中的sigmamore选项来实现。
22ˆ,如果用作为,的估计量,则 IV
211,,ˆˆˆVardXXXX,,,()[()()]。 IV
这种统计量由Wu(1973)和Hausman(1978)分别提出。在Stata中,可以利用Hausman命令中的sigmaless选项来实现。
需要注意的是,在H统计量中,β表示模型中的所有参数,即H统计量是利用所有参数
的LS估计量和IV估计量来构建的。事实上,H统计量可以仅利用内生变量的协方差矩阵来构建。比如,在如下模型中,
y = Xβ+ Xβ + u 11 22
ˆˆd,,ββX是外生的,而X是内生的。定义,H统计量为: 12222LSIV,1HVar,ddd'[()] 2222
其中,Var(d)为Var(d)中右下角(K×K)子矩阵。H与H是渐进等价的。 2222
(1) 对单个变量内生性的检验
以模型
y = Xβ+ x,+ u (1.30) 11 2 2
为例,要检验x的内生性。Hausman检验的具体步骤为: 2
ˆ,,Step1:利用OLS和TSLS方法分别估计方程,,的估计量分别表示为,,标准差222
ˆse()se(),,分别表示为,。 22
Step2:在原假设(H:x是外生的)成立的条件下,H统计量 02
2ˆ,,,(),221222ˆˆˆ ,,,,,HSeSe()[()()]()~(1),,,,,,,22222222ˆ,SeSe()(),,22
这等价于
ˆ,,,22 (1.31) ,HN~(0,1)22ˆ,SeSe()(),,22
根据z统计量与标准正态分布的临界值相比较(双端检验),判断接受或拒绝原假设。
(2) 对多个变量内生性的检验
如果模型中可能存在多个内生解释变量X,将其参数表示为β。以模型
y = Xβ+ Xβ+ u (1.32) 11 2 2
为例,其中X包含K个变量。要检验X的内生性。Hausman检验的具体步骤如下。 222
ˆββStep1:利用OLS和TSLS方法分别估计方程,β的估计量分别表示为,,方差矩222
ˆvar()βvar()β阵分别表示为,。 22
Step2:在原假设(H:X是外生的)成立的条件下, 02
2ˆˆˆ,,,,,,,ββββββ , (1.33) HVarVarK()'()()()~()2222222,,
其中K表示内生解释变量的个数。 2
根据H统计量与卡方分布的临界值相比较,判断接受或拒绝原假设。
如果确认某些变量是内生的,而只是怀疑部分变量是否具有内生性。这时可以仍然利用与上述检验相同的思路进行检验。设在如下模型中,
y = Xβ+ Xβ + u 11 22
X是外生的(K);X= (X, X)中,X(K)是内生的,怀疑X(K)的内生性。 112 2A2B2A2A2B2B
原假设:X是外生的; 2B
备择假设:X是内生的。 2B
首先,将Z作为X= (X, X)的工具变量估计方程,即假定X= (X, X)都是内生的,2 2A2B2 2A2B
ˆβ估计量为。然后,将Z作为X的工具变量估计方程,即假定仅有X是内生的,估2A2AIVAB,
ˆˆˆˆˆˆˆβββ,ββ,d,,ββ计量为。这时,,,。H统计量为 IVAIVAB,,IVA,EIVA,IIVAB,
Asy,,112ˆˆHVarVarVarK,,,,,,ddddββd,'[()]'[()()]() (1.34) IVABIVAB,,2
2ˆ,同样地,回归标准差的估计量可以采用任意一个。
2( 基于残差的内生性检验(Wu-Hausman检验)
DWH检验的另外一种替代形式是直接利用回归残差构建辅助回归式。
(1) 对单个变量内生性的检验
设回归模型为
y = Xβ+ x,+ u (1.35) 11 2 2
在TSLS方法中,工具变量的选择为:
E(x) = Xα+Zα + v (1.36) 2 11 2
事实上,工具变量法是将内生解释变量x拆分成两部分,一部分为E(x),另一部分为v。即 22
x= E(x) + v (1.37) 2 2
其中,作为工具变量的E(x)与模型中的u是不相关的。如果x是内生的,而v与u必定相关。22
因此,对x内生性的检验,即对x与u相关性的检验,等价于对v与u相关性的检验。这可22
以通过如下方程中,的显著性来实现
v= , u+ e (1.38)
其中,e满足经典假定。如果,,0,则v与u相关;如果,=0,则v与u不相关。实践中,v与u都是不可观测的。v可以通过利用LS方法估计方程(9.48)并提取其残差项来代替。但u不能通过利用LS方法估计方程(9.47)并提取其残差项来代替(因为模型中可能存在内生解释变量)。这时候,可以将(9.50)带入最初的模型(9.47),得到
yExvu,,,,Xβ,[()]1122 (1.39) ,,,,XβExvu(),,11222
(9.51)式表明,E(x)与v对y的影响是相同的。对x内生性的检验可以基于如下回归22
式:
yExvu,,,,Xα,,() 11223
如果x是外生的,那么E(x)和v都与u不相关,都是外生的。此时模型中E(x) 和v的222系数相同(,=,),其LS估计量应该近似相同。如果x是内生的,那么v是内生的,与u232
相关;但E(x)是外生的,与u不相关。此时,模型中E(x)的参数估计量和v的参数估计量22
由于存在内生性而出现差异。因此,x的内生性Hausman检验可以通过参数如下步骤来实现。 2
以模型(9.47)为例,检验x是否具有内生性。 2
Step1:用内生解释变量对所有的外生变量(包括工具变量)回归,
xv,,,XΠZΠ, (1.40) 2112
ˆˆxv并提取x的预测值和残差项。 22
Step2:回归方程
ˆˆyxvu,,,,Xα,, (1.41) 11223
然后利用F统计量检验H:,=,。 如果接受原假设,则表明x不具有内生性;否则,0232x是内生的。 2
Hausman内生性检验还可以通过另外两种形式来检验。
检验方程式又可以写作:
ˆˆyxvvu,,,,,Xα,,[]11232
ˆ (1.42) ,,,,,Xαxvu(),,,112322
ˆ ,,,,Xαxvu,,11242
ˆv因此,对的检验等价于对模型(9.50)中的显著性检验。这可以很容易地通过t统计量
实现。
检验方程(9.49)式也可以写作:
ˆˆyxxxu,,,,,Xα,,()1123222
ˆ (1.43) ,,,,,Xα()xxu,,,1123322
ˆ ,,,,Xαxxu,,113422
ˆx因此,对的检验等价于对模型(9.51)中的显著性检验。这可以很容易地通过t统计2
量实现。如果怀疑模型中存在异方差,可以利用异方差稳健标准差进行检验。
(2) 对多个变量内生性的检验
如果模型中可能存在多个内生解释变量,那么内生性检验的思路与上面的介绍的方法完全相同。设回归模型为
y = Xβ+ Xβ + u 11 22
其中,X是外生的(K);X(K)是内生的。工具变量为Z=(Z, Z),Z= X。 112 21211
内生性检验的具体步骤为:
ˆvStep1:用X中的每一个变量分别对Z=(Z, Z)回归,提取残差项(K个)。 2122
Step2:将K个残差项加入最初的回归方程中, 2
ˆyX,,,αvδu (1.44) 1
δ,0利用OLS方法估计方程,并构建F统计量检验H:。如果接受原假设,则表明这0
K个解释变量不具有内生性;否则,这K个解释变量是内生的。 22
如果能够确认部分变量是内生的,而只是怀疑另外一些变量的内生性,则可以利用相似的辅助回归方法进行检验。设回归模型为
y = Xβ+ Xβ + u 11 22
其中,X是外生的(K);X= (X, X)中,X(K)是内生的,怀疑X(K)的112 2A2B2A2A2B2B内生性。工具变量为Z=(Z, Z),其中Z= X。 1211
ˆvStep1:用X中的每一个变量分别对Z=(Z, Z)回归,提取残差项(K个)。 2B122B
Step2:将K个残差项加入最初的回归方程中, 2B
ˆyX,,,,αXδvδu (1.45) 12AAB
δ,0利用IV估计方程,并检验H:。需要注意的是,对其检验不能构建普通的F统0B
计量,普通的F统计量不再有效。如果接受原假设,则表明这K个解释变量不具有内生性;2B
否则,这K个解释变量是内生的。这时,F统计量的构建方法如下。 2B
定义受约束模型为有效估计方程,辅助回归方程的残差平方和表示为SSR,定义无约AE束模型为一致估计方程,辅助回归方程的残差平方和为SSR。 AI
SSESSE,AIAEDWH统计量也可以表述为: DWH ,/SSEnE
()/SSESSEK,AIAEB2WH统计量为: WH,()/()SSESSESSEnKK,,,,EAIAEB12
其中,SSE表示受约束模型的残差平方和。 E
或者DWH(WH)统计量也可以表述为:
ˆˆˆˆuPuuPu,EZXEIZI,2B, DWH uuˆˆn/EE
ˆˆˆˆ()/uPuuPu,KEZXEIZIB,22BWH统计量为: WH ,ˆˆˆˆˆˆuuuPuuPu,,,,nKK[()]/()EEEZXEIZIB,22B
ˆˆuuP表示受约束模型的残差项,表示无约束模型的残差项;表示由Z构成的映射矩EIZ
P阵,表示有(Z, X)构成的映射矩阵。 2BZX,2B
1.4.2 过度识别约束检验
如果存在m个内生解释变量,那么每一个内生解释变量都需要至少一个工具变量。如果我们确定模型中的一些解释变量是内生的,那么我们可以选择k个工具变量,k,m。但实践中我们可能并不确定模型中哪些解释变量是内生的。这种不确定性经常使得我们经常错误地选择过多的工具变量,即:部分工具变量不恰当。
对于m个内生解释变量,如果工具变量的个数大于m,则存在过度识别约束(over-identifying restriction)。过度识别约束的个数为 =(工具变量的个数-内生解释变量的个数)。如果存在m个工具变量,则不存在过度识别约束的问题;如果存在(m+q)个工具变量,则存在q个过度识别约束。过度识别约束检验就是检验这q个过度识别约束是否成立,
或者说这(m+q)个工具变量是否合适。检验的核心即是这些工具变量是否与u相关,如果这些工具变量与u相关,则过度识别约束无效,否则过度识别约束有效。
工具变量的两个基本条件中,第二个条件(即z与x相关)可以比较容易地通过x对z回归方程的F检验来完成。而第一个条件也是至关重要的,如何检验第一个条件是否成立呢,如果内生解释变量(设为x)只有一个工具变量(设为z),对第一个条件(即z与u不相关)的检验则无法实现。但如果存在多个工具变量,则可以通过如下方法实现。
对于模型
y = Xβ+ Xβ+ u 11 22
其中,模型解释变量的个数为K,其中外生解释变量的X个数为K,内生解释变量X的个112数为K,K= K+ K。设工具变量Z =(Z, Z)。共有L个工具变量,Z=X,包含L个工21 212111具变量,Z包含L个工具变量,即L = K+ L。一般地,X为模型所包含的工具变量,而221 21
Z为模型所排除的工具变量。如果L > K,则存在过度识别约束,(L - K)= (L - K)为22222过度识别约束的个数。
原假设:被排除的工具变量Z与u 不相关,且被正确地排除; 2
备择假设:工具变量Z无效。 2
-1ˆu令表示IV 估计的残差项,令P=Z(Z'Z)Z', M=I-P。
ˆˆˆˆuPu'uPu'Sargan (1958) 卡方统计量 = 或(小样本修正后的统计量) ˆˆˆˆ(')/uuN(')/()uuNK,
ˆˆuPu'Basmann's (1960) 卡方统计量 = ˆˆ(')/()uMuNL,
或者
ˆˆuPu'/()LK,Sargan (1958) 拟F统计量 = ˆˆ(')/()uuNK,
ˆˆuPu'/()LK,Basmann's (1960) 拟F统计量 = ˆˆ(')/()uMuNL,
这两个统计量都渐进服从(L-K)个自由度的卡方分布,均具有一致性。参见Davidson and MacKinnon(1993, 235-36)。二者的差异在于估计方程标准差的方法,Sargan(1958)利用过度识别约束,而Basmann(1960)则没有施加过度识别约束。
2另外,Sargan统计量可以通过计算NR的形式计算。同方差假定下的基本检验步骤如下。
ˆuStep1:利用所有的工具变量Z =(Z, Z)回归结构方程,记TSLS的残差项为。 12
ˆuStep2:用对所有的外生变量Z =(Z, Z)(包括结构方程中的外生变量以及工具变量)12
2R进行OLS回归,其非中心化的可决系数为。 uc
22a2nR,,,,Step3:构建统计量。给定检验水平,,如果nR大于临界值,则拒绝uc,ucLK()
原假设,即模型中存在内生解释变量;否则,接受原假设,即所有变量都是外生的。
需要注意的是,如果模型存在条件异方差,则Sargan统计量或Basmann统计量均无效。
这时,可以利用GMM估计的Hansen J统计量来实现过度识别约束的检验,称之为稳健的过度识别约束检验。事实上,Sargan统计量是Hansen's J统计量在同方差假定下的特殊形式。因此,这两个统计量经常被称作 Hansen-Sargan统计量。稳健的过度识别检验可以通过ivgmm0或ivreg2实现。(参见GMM估计一章,Hayashi(2000, 227-228),Baum, Schaffer, and
Stillman (2002))。
异方差情况下,Sargan统计量可以通过如下步骤实现。
ˆuStep1:利用所有的工具变量Z =(Z, Z)回归结构方程,记TSLS的残差项为。 12
ˆXStep2:第一阶段回归中的拟合值记为。 2
ˆXStep3:从Z中任意选择K个工具变量,分别对(X, )进行OLS回归,记其残差2212
ˆr项为。
ˆˆ1ur,,αvStep4:利用OLS方法回归方程,记其回归平方和为SSR。 ,,
a2NSSR,,,,,Step5:构建统计量。给定检验水平,,如果N-SSR大于临界值,则,()LK
拒绝原假设,即模型中存在内生解释变量;否则,接受原假设,即所有变量都是外生的。
C统计量用于检验部分工具变量的外生性。C等于用部分工具变量回归方程的Hansen-Sargan统计量与用全部工具变量回归方程的Hansen-Sargan统计量的差。原假设为要检验的部分工具变量是有效工具变量。为了保证C统计量是非负数,两个方程的Hansen-Sargan统计量都是用完全正交条件(即有效估计)得出的。在IV/2SLS估计中,C统计量是基于无约束模型的MSE计算的;在LIML估计中,C统计量是基于无约束模型与受约束模型的Anderson-Rubin过度识别统计量计算的(参见Hayashi (2000, 218-222 and 232-34))。
1.4.3 工具变量的有效性检验
作为识别约束,工具变量必须与内生解释变量具有明显的相关性。否则,无法进行估计。所谓工具变量的有效性即是指工具变量与内生解释变量存在相关。设模型为:
y = Xβ+ Xβ+ u 11 22
其中,模型解释变量的个数为K,其中外生解释变量的X个数为K,内生解释变量X112的个数为K,K= K+ K。设工具变量Z =(Z, Z)。共有L个工具变量,Z=X,包含L21 212111个工具变量,Z包含L个工具变量。 22
21( 偏R统计量、F统计量
工具变量的有效性检验即是检验Z与X的相关性的检验。这可以通过第一阶段回归中22
2Z的联合显著性来实现,即利用F统计量或偏R统计量。 2
2偏R = (SSE-SSE)/SST Z2Z
其中,SSE表示内生解释变量X对Z的回归平方和,SSE表示内生解释变量X对Z =(Z, Z221Z21Z)的回归平方和,SST表示总离差平方和。 2
2但F统计量或偏R统计量存在一个较大的缺陷。它们只能用于检验Z与X的联合显著22性,而不能检验Z中单个变量与X的相关性。因此,这两种统计量适合于模型中仅存在一22
个内生变量的情况。
222Shea's (1997)提出了另一种偏R统计量,称之为Shea R。Shea R考虑了工具变量自身
22之间的相关性。当模型中仅存在一个内生变量时,Shea R与普通的偏R是等价的,都等于
2内生解释变量与工具变量的典型相关的最小特征值。作为经验法则,如果模型的偏R较高而
2Shear R较小,则表明工具变量缺乏充分的相关性,模型存在欠识别问题。
2( 弱工具变量问题
实践中经常会出现的情况是,工具变量与内生解释变量之间仅存在微弱的相关关系,这些变量称为弱工具变量。弱工具变量的问题增加了IV估计量的有偏。Staiger and Stock(1997)证明,即使工具变量与内生解释变量具有显著的相关性(比如,F统计量在5%(或1%)的检验水平上具有显著性),弱工具变量问题仍然会存在。而且,IV估计偏差随着工具变量个数的增加而增加。因此,实践中对于存在单个内生变量时,要求F统计量至少大于10;而工具变量的个数则以精简为原则。Stock and Yogo (2002)利用Cragg-Donald F统计量作为弱识别的检验统计量,并给出了其临界值。弱识别检验统计量为:
Cragg-Donald F统计量 = (N-L)*minEval/L2
Anderson 提出了典型相关似然比检验统计量,Cragg-Donald则提出了另外一种统计量。其原假设和备择假设分别为:
原假设为:简化方程的系数矩阵的秩=K-1,即方程是欠识别的。
备择假设:简化方程的系数矩阵的秩?K-1,即方程是可识别的。
检验统计量为:
Anderson典型相关似然比检验统计量
Cragg-Donald卡方统计量 = N*minEval
Anderson典型相关似然比检验统计量服从自由度为L的卡方分布。拒绝原假设表明模型2
是可识别的。但需要注意的是,拒绝原假设仍然可能存在弱工具变量的问题,即工具变量虽然与内生解释变量的存在明显的相关性,但相关系数比较低,参见Hall et al. (1996)。 1.4.4 内生性检验与正交约束检验的关系
内生性检验是对变量的内生性的检验,常用方法是DWH统计量。外生性检验是对变量正交性的检验,常用统计量是C统计量。内生性与外生性是一个问题的两个方面。事实上,在一些情况下,DWH统计量与C统计量是等价的。
设在模型中
y = Xβ+ Xβ+ Xβ+ u 1 1 2A 2A 2B 2B
模型解释变量的个数为K,其中外生解释变量的X(K个),内生解释变量为X(K个),112A2A怀疑的内生解释变量为X(K个)。令K= (K, K),K= K+ K。X为模型中包含的工2B2B2 2A2B1 21具变量,包含L= K个;设Z为模型排除的工具变量(L个),怀疑的工具变量为Z(L112A2A2B2B个)。
原假设:(X, Z)是外生的;备择假设:(X, Z)是内生的。 2B2B2B2B
如果原假设成立,则工具变量Z = (X, X, Z),共包含(K+K+ L+L)个工具变12B212B 2A2B量。模型称为受约束模型,估计量是一致、有效的。如果备择假设成立,则工具变量Z= (X, 1Z),共包含(K+ L)个工具变量。模型称为无约束模型,参数估计量是一致、无效的。 2A12A
同方差情况下,基于IV估计的Hausman统计量服从自由度为Min(K+L, K) 的卡方2B2B2分布。条件异方差情况下,如果K?K,则C统计量与Hausman统计量等价,均服从自由2B2
度为K的卡方分布。如果K> K,则C统计量与Hausman统计量不同,C统计量服从自2B2B 2
由度为K的卡方分布,Hausman统计量所服从卡方分布的自由度是未知的。 2B
Hausman统计量的自由度Min(K+L, K)中,K+L- K= L- K。即,如果所怀疑2B2B22B2B 2 2B 2A的排除工具变量的个数小于所怀疑的内生变量的个数,则C统计量与Hausman统计量是等价的。在这种情况下,利用Hausman统计量进行内生性检验与利用C统计量进行外生性检验取决于研究的起点:Hausman统计量是研究模型中所包含变量的内生性,而C统计量是检验模型所排除变量的外生性。比如,在如下模型中,
y = Xβ+ Xβ+ Xβ+ u 1 1 2A 2A 2B 2B
解释变量的个数为K,其中外生解释变量的X(K个),内生解释变量为X(K个),怀112A2A疑的内生解释变量为X(K个)。令K= (K, K),K= K+ K。X为模型中包含的工具2B2B2 2A2B1 21
变量,包含L= K个。设Z为模型排除的工具变量(L个)。如果怀疑X的内生性,利用1122BHausman统计量进行检验,即检验正交条件是否由L个增加到(L+ K)个(不包括X在内)。 21
如果模型设定为:
y = Xβ+ Xβ+ u 1 1 2A 2A
模型排除的工具变量为(Z, X),共(L+ K)个。现在怀疑X的内生性,利用C统22B22B
计量进行检验,即检验正交条件是否由(L+ K)个下降到L个(不包括X在内)。 21
1.5 案例
例 1.1 对于如下模型进行分析。(数据文件:mroz)
2log(wage) = , + ,educ + ,exper + ,exper + u 01 2 3
(1) 怀疑模型中教育(educ)具有内生性问题,利用父、母亲接受教育的年数(fatheduc、
motheduc)作为educ的工具变量估计上述模型。
. ivregress 2sls lwage exper expersq (educ=fatheduc motheduc), first
(2) 计算上述方程的稳健标准差
. ivregress, vce(robust)
(3) 对educ进行内生性检验
利用Hausman统计量检验。
. quietly ivreg lwage exper expersq (educ=fatheduc motheduc)
. est store IV_reg
. quietly regress lwage exper expersq educ
. est store LS_reg
. hausman IV_reg LS_reg
可得Hausman统计量=2.7,p值=0.44。接受原假设,即educ是外生的。
或者统一利用有效估计量的标准差,
. hausman IV_reg LS_reg, sigmamore
或者统一利用一致估计量的标准差,
. hausman IV_reg LS_reg, sigmamless
也可以利用残差进行检验。
. regress educ c exper expersq fatheduc motheduc
. predict educhat, xb
. predict res, residual
. regress lwage exper expersq educhat res
. test educhat=res
. regress lwage exper expersq educ educhat
. test educhat
. regress lwage exper expersq educ res
. test res
三种检验得到完全相同的结果:F(1, 422) =3.12,Prob=0.08。在5%的检验水平上,没有显著性。
(4) 对模型进行过度识别约束检验。
. estat overid
(5) 检验工具变量的有效性。
. estat firststage, all
练习
分别回归如下两个模型
(1)需求方程: Q = a + aR + aRD + aX + ut01t2t3tt
(2)供给方程: Q = a + bR + bRS + bY + v tS1t2t3tt
其中,Q = 商业贷款总额 (单位:十亿美元)
R = 平均市场利率(%)
RS = 3个月期限的国库券利率(%)
RD = AAA 企业债券利率(%)
X = 工业生产指数
Y = 银行存款总额 (单位:十亿美元)
注:工具变量的选择。因为贷款需求方程中,R具有内生性。选择的工具变量应该与R相关,又与u不相关。u中包含了除了贷款利率、AAA企业债券利率和工业生产指数之外的其它影响贷款需求的因素。哪些因素会与贷款利率相关而又与贷款需求无关呢,可以想到的因素显然是那些影响贷款供给却不影响货币需求的因素,即RS、Y。因为RS、Y通过影响货币供给而影响贷款利率,与贷款利率相关;同时,RS、Y又不会对贷款需求产生直接的影响,即与u不相关。因此,RS、Y是合适的工具变量。