面板数据的模型(panel data model)
王志刚 2004年11月11日
1. 混合数据模型和面板数据模型
如果扰动项
服从独立同分布假定,而且和解释变量不相关,那么就可以采用混合最小二乘法估计(Pooled OLS),但是这里要注意POLS暗含着一个假定就是,截距项和解释变量的系数是相同的,不随着个体和时间而变化。
我们一般采用单因子(one-way effects)模型,假定截距项具有个体异质性,也就是:
这种模型是最常见的面板模型(又称为纵列数据longitudinal data),因为面板数据往往要求个体纬度 N>>T(时间纬度),下面我们基本上以这种模型为例。
是独立同分布,而且均值为0,方差为
。如对截距项和解释变量系数均有个体的异质性,那么要采用随机系数模型(Random coefficient model),stata的xtrchh过程提供了相应的估计。
双因子模型(two-way):
2. 固定效应(Fixed effects) vs 随机效应(Random effects)
如果个体效应
是一个均值为0,方差为
的独立同分布的随机变量,也就是
,该模型就称为随机效应模型(又称为error component model);如果相关,则称为固定效应模型。
1.在随机效应模型中,
在每个个体内部存在着一阶自相关,因为他们都包含着相同的个体效应;此时OLS无效,而且
差也失真,应该采用广义最小二乘估计(GLS)
其中:是个体按时间的均值;
有待估计;我们可以通过对组内和组间估计得到相应的残差,从而可以计算出方差;
;
组间估计:
;组内估计如下;
2.如果个体效应和解释变量相关,OLS和GLS都将失效,此时要采用固定效应模型。
2.1 对两期模型
差分变换后OLS:
应用:Kruegar和Ashenfelter(1994)对孪生子样本所做的教育回报率估计;
固定效应模型使用要注意的问题:
(1)固定效应模型通常不能重获任何不随时间而改变的解释变量的估计,差分变换消除了它们;
(2)固定效应估计量对任何有关的不随时间变化的解释变量的省略都是稳健的(后者的省略对前者影响不大)。
(3)当随机效应有效时,固定效应估计量仍将产生可识别参数的一致估计值(但非有效)。
2.2 多于两期模型
在许多存在内生变量的模型中,我们要考虑这种模型(又称组内估计量within estimator)。
首先通过离差法消去个体效应,然后再OLS
固定效应能够模型估计主要利用了时间纬度上的信息,因此那些不随时间变化的变量就不能估计出来,此时的估计值是无偏的。固定效应模型的另一种等价的方法是虚拟变量的OLS,对每个个体采用一个虚拟变量,但是如果N太大,这种方法就不大好。
要注意的一点
正确的估计:
,
计算机输出的往往是:
,
通过对自由度的修正可以得到:
当然,stata可以直接对随机效应进行估计,这些步骤就可以省去,但是你要注意这个
。
三.模型设定检验
1.Pooled OLS vs panel
如果没有个体效应,即
,那么OLS是BLUE,否则面板模型较好。采用拉格朗日乘数检验(又称为Breusch-Pagan检验)
其中的扰动项来自于OLS。
2.Hausman检验(Random vs Fixed effects model)
如果零假设成立,那么随机效应估计和固定效应估计都是无偏的,随机效应模型是一致有效的,而固定效应估计是无效的;在备择假设成立下,随机效应估计是有偏非一致的,而固定效应模型仍然是无偏的。
豪斯曼统计量
渐进服从卡方分布,自由度为k(不含截距项的解释变量个数)。
3.其他的设定检验;
最小距离法(Chamberlin,1982,handbook of econometrics vol2),利用联立方程组,求出使结构式系数与简约型系数之间距离最小的有效估计值;
GMM检验等等;
四.政策分析
1.自然实验
数据:两个横截面数据集,一个收集于事件发生之前,另一个收集于事件发生之后;考察政策的真实影响。
方法:自然实验(natural experiment),difference-in-differences;
区分两组:处理组B(treatment group)(认为受到政策影响),对照组A(control group)(认为总不受政策变化影响),为了控制着两组之间的系统性差异,需要两个年份的数据,一个在政策之前,另一在政策发生之后;这样就分成了四个格子(cell)。
模型:
其中
,如果预测对象在B组;
,如果在政策发生改变后。
其中的政策效果估计值:
,
,
2.项目评估(program evaluation)
首先我们在第一个时期里抽取一部分样本;然后让这些样本中的某些个体参加某个
(或项目),那些不参加计划的单元作为对照组;这和前面提到的自然实验有相同之处,关键不同在于,在每个时期我们都观察到同样的截面单元。
模型:
采用的方法:差分
,我们通过计算着两个组在这两个时期的平均变化,然后取差分就是估计,表示y均值由于计划参与而导致的变化程度。
推广开来,对那些因不同地区差异的政策效应也可以用类似的方法研究。
五.面板模型举例
Wooldridge书中p437的男性工资方程估计。
具体程序如下:
use c:\wagepan.dta,clear
tsset nr year;
/*pooled ols vs random effects*/;
reg lwage educ black hisp exper expersq married union;
xtreg lwage educ black hisp exper expersq married union,re;
xttest0;/*BP test*/;
/*random vs fixed */;
xtreg lwage educ black hisp exper expersq married union,fe;
xtreg lwage educ black hisp exper expersq married union,re;
xthausman;/*拒绝随机效应,应该采用固定效应*/;
tsset nr year;
xtreg lwage educ black hisp exper expersq married union,fe;
predict e,e;
/*如果存在自相关或异方差,我们就要采用FGLS,xtgls*/;
xtserial e;/*不存在自相关*/;
/*检验是否存在横截面的相关性*/;
xtreg lwage educ black hisp exper expersq married union,fe;
xttest2;/*发现拒绝零假设(也就是独立性),也就是说同一时期横截面之间存在相关性*/
xtgls lwage educ black hisp exper expersq married union,i(nr) t(year) panels(correlated);
2.注意xtgls 中的几个关键选项
[语法]
xtgls depvar [varlist] [,i(varname) t(varname) itgls nmk panels({iid| hetero| correlated}) corr({independent|ar1|psar1}) nocons level(#) tolerance(#) iterate(#) nolog rhotype({reg|dw|freg|nagar|theil|tscorr})]
predict [type] newvarname [,{xb|stdp}]
xtgls采用可行的广义OLS(FGLS),可以处理个体内部的时间纬度上的自相关,不同横截面之间的异方差和同一时期不同横截面的相关性问题。
1.panels(iid):扰动项为同方差,而且横截面之间没有相关性。
panel(hetero):扰动项存在异方差,而且横截面之间没有相关性。
panel(correlated):扰动项存在异方差,而且横截面之间有相关性(要求平衡面板数据,而且时间纬度大于个体的数目)。
2.corr(ind):每个个体内部不存在时间纬度上的自相关。
corr(ar1):存在一阶自相关,而且对所有个体自相关系数相同;
corr(psar1): 存在一阶自相关,自相关系数依赖于不同的个体而不同;
3.rhotype(.):计算自相关系数的方法
reg:regression using lags;dw:durbin-waston calculation; freg:regression with leads;nagar:Nagar calculation;theil:Theil calculation;tscorr:time series autocorrelation calculation;
xttest1提供了自相关检验或随机效应检验(包括各种修正检验)
xttest2 用来检验是否存在横截面的相关性;
xttest3 用来检验是否存在群组间的异方差(groupwise heteroskedasticity);
xtserial 用来检验个体内部的时间纬度上的相关性。如果存在自相关可以考虑再用xtregar过程。
如果存在异方差,可以用过程xtpcse进行估计;
(OLS or Prais-Winsten models with panel-corrected standard errors)
拿到面板数据滞后我们首先要做的工作往往是进行差分,然后再进行各种检验和模型设定检验。
具有内生解释变量的模型采用xtivreg过程解决。
附录:SAS中有关面板数据的模型
Proc mixed;
Proc tscsreg;
Proc genmod
动态面板数据模型(Dynamic Panel Data,DPD)
一.模型形式与估计方法
方程右边包含了因变量的滞后项(可以推广到多阶滞后),因此称之为动态面板模型。假设残差项同方差,无自相关。
问题:存在内生性,导致系数估计有偏和非一致性。固定效应模型解决不了这一问题。
二.估计方法
1.工具变量(Anderson ,Hsiao,1981)(A-H)xtivreg过程。
或写作
虽然消去了个体效应,但是因变量一阶滞后的差分项仍然和扰动差分项相关,采用工具变量法,A-H提供了两种工具变量
理论上讲这两个估计量都是一致的,但是如果滞后项系数非常接近1,那么相应的弱工具性会导致这两个估计量的无效性。
2.广义距估计(Arellano-Bond,1991)GMM(xtabond过程)
利用了所有可得的滞后变量,因为
,这些滞后变量都可以用来作为
的工具变量。
如果不含其它的解释变量
,直接利用
作为因变量一阶差分项的工具变量。
如果包含其它解释变量,就要作下面的区分。
区分前定变量和外生,内生变量。
(1) 前定变量
如果
和
不相关,但是却和
相关。
(2) 内生变量
和
相关,但是和
不相关。
(3) 外生变量
和
不相关,无论过去、现在还是未来的扰动项。
选用的工具变量
如果
为内生变量,那么可以采用其滞后2阶以及更多项
来做工具变量。
如果
为前定变量,可以采用其滞后一阶以及更多项(
)来做工具变量。
如果
为外生变量,那么可以采用所有项(
)作为工具变量。
[语法]
xtabond depvar [varlist] [,lags(#) maxldep(#) maxlags(#) diffvars(varlist) inst(varlist) pre(varlist)[,lagstruct(#,#)]][pre(varlist[,lagstruct(#,#)])]..[pre(varlist[,lagstruct(#,#)])] artest(#) robust twostep nonconst small level(#)
predict [type] [,statistic];
statistic: (1)xb,fitted values;(2)e,residuals.
注意的几个选项
lags(#):设定右边因变量滞后项的阶数p,默认值为1;
maxldep(#):设定工具变量所用滞后项的最大阶数;默认值为Ti-p-2;
diffvars(varlist):设定一些外生的协变量(已经做了一阶差分);
inst(varlist),设定一些辅助的工具变量,在把它们纳入到工具变量矩阵之前,xtabond命令不会对他们进行差分。
pre(varlist,[lagstruct(prelags,premaxlags)]),设定前定变量,prelag的默认值为零,premaxlags设定了做为工具变量的前定变量的最大滞后项阶数,默认值Ti-prelags-2;
artest(#)设定了自相关检验的阶数,最大的阶数不超过p+1,默认值为2;
robust:给出了一步GMM的稳健估计;
twostep:给出2步GMM估计,它比一步估计更有效,对较小的样本推荐采用一步估计的系数;
检验:
1. 自相关检验:A-B估计量要求扰动项是不相关,从而扰动项的一阶差分
服从一阶负自相关,但是没有更高阶的自相关。
2. 过度识别检验(sargan test),同前面提到的工具变量法中的问题一样。
xtabond 一步估计会给出两种检验的结果,二步估计给出了修正的sargan检验和自相关检验。
举例--------------------英国的就业方程(Arellano,bond,1991,RES)
1. 模型
我们考察就业方程:
其中解释变量可能包含不同的阶数,我们必须注意xtabond给出的是一阶差分后的估计值。
下面给出了程序
use c:\abond.dta,clear;
xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984,lags(2) ;
xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984,lags(2) two;
xtabond n l(0/1).w l(0/2).(k ys) yr1980-yr1984,lags(2) robust;
二.估计的部分结果如下:
例如一步估计
One-step results
n | Coef. Std. Err. z P>|z| [95% Conf. Interval]
n |
LD|.6862262 .1486163 4.62 0.000 .3949435 .9775088
L2D | -.0853582 .0444365 -1.92 0.055 -.1724523 .0017358
w |
D1|-.6078208 .0657694 -9.24 0.000 -.7367265 -.4789151
LD|.3926237 .1092374 3.59 0.000 .1785222 .6067251
k |
D1|.3568456 .0370314 9.64 0.000 .2842653 .4294259
LD|-.0580012 .0583051 -0.99 0.320 -.172277 .0562747
L2D|-.0199475 .0416274 -0.48 0.632 -.1015357 .0616408
ys |
D1|.6085073 .1345412 4.52 0.000 .3448115 .8722031
LD|-.7111651 .1844599 -3.86 0.000 -1.0727 -.3496304
L2D|.1057969 .1428568 0.74 0.459 -.1741974 .3857912
yr1980 |
D1 | .0029062 .0212705 0.14 0.891 -.0387832 .0445957
….
_cons|.0095545 .0142073 0.67 0.501 -.0182912 .0374002
Sargan test of over-identifying restrictions:
chi2(25) = 65.82 Prob > chi2 = 0.0000
Arellano-Bond test that average autocovariance in residuals of order 1 is 0:
H0: no autocorrelation z = -3.94 Pr > z = 0.0001
Arellano-Bond test that average autocovariance in residuals of order 2 is 0:
H0: no autocorrelation z = -0.54 Pr > z = 0.5876
two step results
Sargan test of over-identifying restrictions:
chi2(25) = 31.38 Prob > chi2 = 0.1767
Arellano-Bond test that average autocovariance in residuals of order 1 is 0:
H0: no autocorrelation z = -3.00 Pr > z = 0.0027
m2: Arellano-Bond test that average autocovariance in residuals of order 2 is 0:H0: no autocorrelation z = -0.42 Pr > z = 0.6776
因此我们应该采用两步的结果。
此外,针对弱工具变量(例如右边只有因变量一阶滞后项,如果它的系数非常接近于1,就是使得工具变量很弱)所造成的后果,xtabond2命令采用系统广义矩估计(system GMM)解决了这一问题(要注意对因变量初始值的限定)。
三.面板数据的单位根与协整检验
1.L. Nunziata (2002), xtdw.ado: a Stata command for Durbin Watson statistic in fixed effects panel data models (help);
2.L. Nunziata (2002), xtbac.ado: a Stata command for the Baltagi autocorrelation test in panel data (help);
3.L. Nunziata (2000), xtfptest.ado: a Stata command for the Fisher version of the Philips Perron test for cointegration in panel data (help);
4.L. Nunziata (2000), xtdftest.ado: a Stata command for the Fisher version of the Dickey Fuller test for cointegration in panel data (help);
5.
L. Nunziata (2000), hetgrot.ado: a Stata command for a Likelihood Ratio test for groupwise heteroskedasticity (help).
其余的命令:
Levinlin,ispshin,hadrilm,madfuller,nharvey;
四.面板数据的离散选择模型
xtlogit,xtprobit,xttobit
_1161620331.unknown
_1161670669.unknown
_1161673632.unknown
_1161673780.unknown
_1161676517.unknown
_1161676637.unknown
_1161673832.unknown
_1161673733.unknown
_1161671262.unknown
_1161671338.unknown
_1161671220.unknown
_1161620363.unknown
_1161621235.unknown
_1161669902.unknown
_1161670616.unknown
_1161621437.unknown
_1161626064.unknown
_1161628064.unknown
_1161621490.unknown
_1161621404.unknown
_1161620458.unknown
_1161620501.unknown
_1161584531.unknown
_1161619720.unknown
_1161620289.unknown
_1161585726.unknown
_1161619605.unknown
_1161584631.unknown
_1161584269.unknown
_1161584388.unknown
_1161584483.unknown
_1161584327.unknown
_1161583198.unknown