为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

静态面板数据模型(研究生课程)

2019-06-28 3页 pdf 492KB 65阅读

用户头像 个人认证

天边的晚霞

暂无简介

举报
静态面板数据模型(研究生课程)1静态面板数据模型及其运用一、面板数据定义面板数据,简言之是时间序列和截面数据的混合。面板数据的定义严格地讲是对一组个体(如居民、家庭、企业、行业、地区和国家等)连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。1122iiiiyxx——截面数据回归1122ttttyxx——时间序列数据回归1122itititityxx——面板数据回归面板数据包括三个方面的信息:截面成员,...
静态面板数据模型(研究生课程)
1静态面板数据模型及其运用一、面板数据定义面板数据,简言之是时间序列和截面数据的混合。面板数据的定义严格地讲是对一组个体(如居民、家庭、企业、行业、地区和国家等)连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。1122iiiiyxx——截面数据回归1122ttttyxx——时间序列数据回归1122itititityxx——面板数据回归面板数据包括三个方面的信息:截面成员,时间和变量。回归分析时使用三维数据比较困难,一般要转换为二维数据,可以按照截面堆积和时间堆积的方式进行转换。近年来,由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。而关于面板数据的计量理论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题,如近年来发展出的面板向量自回归模型(PanelVAR)、面板单位根检验(PanelUnitRoottest)、面板协整分析(PanelCointegration)、门槛面板数据模型(PanelThreshold)等,都是在现有截面分析和时间序列分析中的热点主题的基础上发展起来的。使用面板数据建模的优点:第一,便于控制个体的异质性。面板数据明个体、企业、地区或国家是存在异质性的,单纯的时间序列分析和横截面分析没有控制异质性,估计通常是有偏的。比如,我们在研究全国30个省份居民人均消费青岛啤酒的数量时,可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变量。但同时我们认为民族习惯、风俗文化、广告投放等因素也会显著地影响居民的啤酒消费量。对于特定的个体而言,前两种因素不会随时间的推移而有明显的的变化,通常称为个体效应。而广告的投放往往通过电视或广播,我们可以认为在不同的年份所有省份所接受的广告投放量是不同的,通常称为时间效应。这些因素往往因为难以获取数据或不易衡量而无法进入我们的模型,在截面或时间序列分析中往往会引起遗漏变量的问题。而面板数据模型的主要用途之一就在于处理这些不可观测的个体效应或时间效应。第二,面板数据包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。时间序列数据常常会带来变量间的共线性,例如前面提2到的啤酒需求,价格和收入的时间序列数据常常存在着多重共线性。但是在面板数据中,这种共线性就会小得多,因为横截面数据为价格和收入信息加入了许多变异性(异质性),从而使估计参数更有效。第三,便于分析动态调整过程。例如,在测度失业时,横截面数据可以估计在某一时点有多少人失业,但不能很好地解释失业的持续性问题。然而,面板数据可以估计出在某一期失业人群中到下一期继续保持失业状态的人群比例。面板数据还可以很好地研究工作转换、劳动力流动、居民消费和收入变动等问题。平衡面板数据:数据是完整的,每一个时期的观测个体相等。即每期的N相等,样本数为NT。非平衡面板数据:每一时期的观测个体不再相等,有些个体消失,没有数据可供观测,即1TttnNT。例如,在20年中,有些厂商倒闭了。二、静态面板数据模型的分类我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项)的情形。但严格地讲,随机干扰项服从某种序列相关的模型,如AR(1),AR(2),MA(1)等,也不是静态模型。动态和静态模型在处理方法上往往有较大的差异。用静态面板数据建立的模型通常有三种,即混合模型、固定效应模型和随机效应模型。基本模型:'ititiiityXz,1,2,...,;1,2,...,iNtT(1)其中itX可以随个体及时间而变,iz为不随时间而变的个体特征。iit为复合扰动项,其中,i为是不可观测的随机变量,代表个体异质性的截距项。it为随个体和时间而改变的扰动项。假设it独立同分布,且与i不相关。1.混合模型(PooledModel)如果一个面板数据模型定义为:ititityX,1,2,...,;1,2,...,iNtT(2)其中ity为被回归变量(标量),为截距项,itX为1k阶回归变量列向量(包括k个回归量),为1k阶回归系数列向量,it为误差项(标量)。则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数和都相同。如果模型是正确设定的,则解释变量与误差项不相关,即(,)0ititCovX。那么无论是N,还是T,模型参数的混合最小二乘估计量都是一致估计量。批注[A1]:混合回归也被称为“总体平均估计量”,因为可以理解为个体效应都被平均掉了。由于面板数据的特点,虽然通常假设不同个体之间的扰动项相互独立,但是同一个体在不同时期的扰动项之间往往存在自相关,此时对标准差的估计应使用聚类稳健的标准差。3一个研究企业投资需求的例子。样本为包括五个企业和三个变量的22个年度(1935-1954)的面板数据。混合回归模型设定为:12ititititIMK。其中,I为总投资,M为企业前一年的市场价值(反映企业的预期利润),K为前一年末工厂存货和设备的价值(反映必要重置投资期望值)。EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选NewObject功能,从而打开NewObject选择窗。在TypeofObject选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入20个行业标识。工具栏中点击Sheet键,从而打开SeriesList(列写序列名)窗口,定义变量I?M?K?点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开PooledEstimation(混合估计)在DependentVariable(因变量)选择窗填入I?;在Commoncoefficients(系数相同)选择窗填入M?K?;Crosssectionspecificcoefficients(截面系数不同)和periodspecificcoefficients(时点系数不同)选择窗保持空白;在FixedandRandom选择窗中的cross-secti和period选项都选择none;在Weighting(权数)选择窗点击Noweighting。点击PooledEstimation(混合估计)窗口中的OK键。2.固定效应模型(fixedeffectsregressionmodel)根据未观测变量是否与解释变量相关,将面板数据模型分为固定效应模型和随机效应模型。固定效应模型的基本假设:假设1:[,]0iiiExa(误差项与解释变量的当期观察值、前期观察值以及未来观察值均不相关,也就是说模型中所有的解释变量都是严格外生的。)假设2:2[,]iiiVarxa(同方差假定)假设3:(,)0iitCovax(未观测变量与解释变量相关)根据未观测变量是否随截面或时间变化,固定效应模型分为三种类型,即个体固定效应、时点固定效应和个体时点双向固定效应。2.1个体固定效应模型(entityfixedeffectsmodel)个体固定效应模型定义为itiitityX,1,2,...,;1,2,...,iNtT(3)其中i是模型截距项,是随机变量,表示对于N个不同的截面有N个不同4的截距。i表示那些不随时间改变的影响因素,而这些因素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、国家的社会制度等,我们一般称其为“个体效应”(individualeffects)。当个体效应的变化与itX有关时,应用固定效应模型进行估计;当个体效应的变化与itX无关时,应用随机效应模型进行估计。itX为1k阶回归变量列向量,为1k阶回归系数列向量,对于不同个体回归系数相同(我们主要讨论变截距不变系数模型),it为误差项(标量)。个体固定效应模型也可以表示为:1122...itNNitityDDDX,1,2,...,;1,2,...,iNtT(4)其中,1,1,2,...,0,iiiND如果属于第个个体,其他因为个体固定效应模型中,未观测变量i与解释变量之间是相关的,因此得到的OLS估计是非一致的。消除i的影响以保证在面板数据模型中估计的一致性就成为一种首选。消除个体i的影响的方法主要有两种:一是一阶差分法,二是组内估计法。当T>2时,若it独立同分布,则组内估计量比一阶差分估计量更有效率,因此实践中多用组内估计法。组内估计法:组内估计法利用解释变量和被解释变量偏离其时间维度均值的信息,来反映变量随时间变化的信息。组内估计法的基本原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据估计个体固定效应模型的回归系数(不包括截距项),最后利用组内均值等式计算截距项。例:个体效应模型'itiitityx(a)对(a)式两边按照时间维度求均值,得到:'...iiiiyx(b)(a)-(b)式,得到:''...()()itiitiitiyyxx从而消除了个体效应。以企业投资需求为例,个体固定效应模型设定为:012itiitititIMKEViwes估计方法:在PooledEstimation对话框中,在Commoncoefficients(系数相同)选择窗填入M?K?;Crosssectionspecificcoefficients(截面系数不同)中填入C,在periodspecificcoefficients(时点系数不同)选择窗保持空白;在FixedandRandom选择窗中的cross-secti选项选择fixed,在period选项选择none,其余选项同上。注意:当存在截面异方差时要选择截面加权法(cross-section批注[微软用户2]:FE也被称为最小二乘虚拟变量模型LSDV,这种方法的好处是可以得到对个体异质性的估计。批注[微软用户3]:固定效应估计量(或称组内估计量。要求:扰动项与各期解释变量均不相关,即解释变量严格外生。此外,fe的缺点是不能估计不随时间而变的变量。5weights)进行估计;当残差具有截面异方差和同步相关时,选择cross-sectionSUR进行估计。2.2个体时点固定效应模型(timeandentityfixedeffectsmodel)个体时点固定效应模型定义为:0itititityX,1,2,...,;1,2,...,iNtT(5)其中i是随机变量,表示对于N个不同的截面有N个不同的截距,且其变化与itX有关;t是随机变量,表示对于T个时点有T个不同的截距项,且其变化与itX有关;itX为1k阶回归变量列向量,为1k阶回归系数列向量,it为误差项(标量)。如果模型形式是正确设定的,并且满足模型通常的假定条件,对模型(5)进行OLS估计得到的全部参数估计量都是不一致的。对于个体和时点双向固定效应,通常可以进行离差化处理,利用..itityyyy对..ititxxxx进行回归,其中1.1TitityTy,1.1NittiyNy,111()NTitityNTy。另外一种办法是引入时间趋势项。则模型变为:0itiititytX,1,2,...,;1,2,...,iNtT(6)以企业投资需求为例,个体时点固定效应模型设定为:012itititititIMKEViwes估计方法:在PooledEstimation对话框中的FixedandRandom选择窗中的cross-secti选项和period选项都选择fixed,其余选项与混合模型相同。3.随机效应模型(RandomEffectRegressionModel)随机效应模型定义为:itiitityX,1,2,...,;1,2,...,iNtT(7)其中i是随机变量,其分布与itX无关;itX为1k阶回归变量列向量,为1k阶回归系数列向量,it为误差项(标量)。同理也可定义个体随机效应模型和时点随机效应模型,但个体随机效应模型模型最为常用。对于个体随机效应模型itiitityX,可以把i并入误差项it,将模型改写为:6()ititiititityXXu(8)随机效应模型可以视为固定效应模型的一个扩展,这需要在固定效应模型的基本假设1和2的基础上再增加如下假设:假设4:(,)0iitCovax假设5:2(0,)iaaIID假设6:22(0,1)iiTaTTuxIID(表明ia与it相互独立)在随机效应模型中,it在每个个体内部都包含着相同的个体效应。由于联合扰动项与解释变量无关,此时OLS是一致的。但由于联合扰动项不是球形扰动项,因此OLS不是最有效率的,而且标准差也失真。假设不同个体之间的扰动项互不相关。由于ia的存在,同一个个体的不同扰动项之间存在自相关。2,ats若cov(,)iitiisaa22,ats若其中,2a为ia的方差(不随i变化),2为it的方差(不随i,t变化)。当ts时,其自相关系数为:222cov(,)/()iitiisaaaa此时,应该采用广义最小二乘估计(GLS)。基于以上假定,我们可以写出模型的方差-协方差矩阵:22[](1)NTaTTNEuu其中,221TaTT,其具体形式为:222222222222.........aaaaaaaaa那么,当成分方差(2a和2)已知时,可以求出的GLS估计量:111ˆ[]GLSXXXy对应的方差估计量为:11ˆ()[]GLSVarXX。然而,在实际中成分方差一般是未知的,因此需要采用可行广义最小二乘估计(FGLS),即先进行组内估计(采用固定效应模型),用估计的残差计算成分方差,得到2的估计值2ˆ。第二步估计混合OLS模型,利用其残差和第一步得批注[A4]:也可采用组间估计量,但有缺陷,不常用。陈强,151.固定效应下不能使用组间估计量。即使在随机效应模型下,由于面板数据被压缩成截面数据,损失了较多的信息量,所以也不常用。7到的2ˆ即可估计出2ˆa。由于组内估计量是无偏且一致的,所以我们可以利用固定效应模型的残差来估计2,因为在固定效应模型的估计过程中我们已经去除了个体效应。设ˆ()()'ititiitieyyxx为固定效应模型的残差,则2211ˆnTititeNTNk(9)接着估计2a。设2iˆte为模型(8)的残差,则2211ˆˆ1nTititeNTk=2ˆ+2ˆa(10)由此可以得到2ˆa=2ˆ-2ˆ(11)这种处理方法的依据在于只需要2和2a的一致估计即可,至于是否无偏并不影响大样本性质。运用FGLS得到的估计量称为随机效应估计量(RE)。EViwes估计方法:在PooledEstimation对话框中的FixedandRandom选择窗中的cross-secti选项选择random,在period选项选择none,在Weighting(权数)选择窗点击GeneralizedLeastSquares,GLS),其余选项与混合模型相同。注意:术语“固定效应模型”和“随机效应模型”用得并不十分恰当,容易产生误解。其实固定效应模型应该称之为“相关效应模型”,而随机效应模型应该称之为“非相关效应模型”,因为固定效应模型和随机效应模型中的ia都是随机变量。三、静态面板数据模型的设定检验根据前面的介绍,我们大体可以采用三种方法估计面板数据模型:混合OLS、固定效应模型和随机效应模型。那么如何对这三种模型进行区分和筛选呢?这就需要进行模型设定检验。1.混合回归模型VS固定效应模型(检验固定效应)混合数据分析依赖于这样的假定,即变量之间的关系不随横截面或时间的变化而变化,这意味着X和Y之间的回归系数(截距项和斜率项)是常数。这种假定忽略了一些重要的事实,例如对不同国家或年份而言,X和Y的关系是不同的。而固定效应模型的设定是建立在如下假设基础之上的,即个体间存在显著差异。如果个体间的差异不明显,那么采用OLS对混合数据进行估计即可。检批注[A5]:陈强156-157。然而,由于同一个体在不同时期的扰动项之间往往存在自相关,因此,应使用聚类稳健的标准差来对标准差估计。这里的F统计量没有用稳健标准差,所以无效。更准确的办法采用LSDV法来考察是否存在个体效应。8验的基本思路为,在个体效应不显著的原假设下,应当有如下关系成立:0:H12...n我们可以采用F统计量来检验上述假设是否成立,222()/(1)(1,)/()ruuRRNFFNNTNkRNTNk其中2rR表示有约束模型(即混合回归模型)的残差平方和,2uR表示无约束模型(即固定效应模型)的残差平方和。约束条件为N个。T表示样本容量,k表示无约束模型中被估参数(公共参数)的个数。如果F值大于其临界值,则拒绝原假设,建立个体固定效应模型比混合固定效应模型更合理。Eviews中称多余的固定效应检验,使用F和LR两个统计量。在固定效应模型估计窗口中的View选项中选Fix/RandomEffectsTesting,RedundantFixedEffects-LikelihoodRatio功能。2.混合回归模型VS随机效应模型(检验随机效应)BreuschandPagan(1980)基于OLS估计的残差构造LM统计量,针对如下假设来检验随机效应:零假设是误差项是独立同分布的,备择假设是存在个体随机效应。200uH:210uH:相应的检验统计量为:2211211[]12(1)]NTititNTititeNTLMTe在原假设下,LM统计量服从一个自由度为1的卡方分布。如果拒绝原假设则表明存在随机效应。注意:该检验假设模型的设定是正确的,即ia与解释变量不相关。3.固定效应模型VS随机效应模型(Hausman检验)我们可以通过检验固定效应ia与其他解释变量是否相关作为固定效应和随机效应模型筛选的依据。Huasman检验就是这样一个检验统计量。其基本思想是,在ia与其他解释变量不相关的原假设下,我们采用OLS估计固定效应模型和采用GLS估计随机效应模型得到的参数估计是无偏且一致的,但是随机效应估计却更有效。在备择假设成立下(即个体效应与解释变量相关),则固定效应模型批注[微软用户6]:依据似然比设计的统计量。参陈强,68.批注[微软用户7]:拒绝H0,表明在模型中应该有一个反映个体特性的随机扰动项。9的参数估计仍然是一致的,但随机效应模型模型估计量却不再一致。因此,在原假设下,二者的参数估计应该不会有显著的差异,我们可以基于二者参数估计的差异构造统计检验量。假设ˆFE和ˆRE分别为固定效应模型的OLS估计量和随机效应模型的GLS估计量,则Var[ˆFE-ˆRE]=Var[ˆFE]+Var[ˆRE]-Cov[ˆFE,ˆRE]-Cov[ˆFE,ˆRE]‘(12)基于上述Hausman检验的思想,有效估计量与它和非有效估计量之间的协方差应当为零,即Cov[(ˆFE-ˆRE),ˆRE]=Cov[ˆFE,ˆRE]-Var[ˆRE]=0(13)由此我们可以得到:Cov[ˆFE,ˆRE]=Var[ˆRE](14)将(14)式代入(12)式,有Var[ˆFE-ˆRE]=Var[ˆFE]-Var[ˆRE]=(15)Hausman检验基于如下Wald统计量:W[ˆFE-ˆRE]’1ˆ[ˆFE-ˆRE]2(1)k(16)其中,ˆ采用固定效应模型和随机效应模型的协方差矩阵进行计算。如果拒绝了原假设,就表明个体效应与解释变量是相关的,此时我们有两种处理办法:一是采用固定效应模型,二是采用工具变量法来处理内生性问题。4.序列相关检验(1)时间维度上的自相关检验零假设:,(,)()0ititsttsCovuuEuu,对所有的ts。检验方法:伍德里奇的序列检验,用估计出来的残差对其滞后项进行回归,可以看一阶滞后项的t值以观察其显著性,如果显著就是AR(1);高阶可以用F或Wald检验。(2)横截面之间的相关性检验运用BreuschandPagan检验法(stata软件中用xttest2命令),针对较大的时间纬度和较小的横截面纬度,用来检验个体在横截面上的独立性。针对较小的时间纬度和较大的横截面纬度,可以在固定效应和随机效应估计后使用xtcsd命令进行检验。四、存在异方差的情形在前面的模型设定中,我们都做了同方差假定,即2(0,)iua和2(0,)it。批注[A8]:基本思想:如果没有序列相关,则一阶差分后残差相关系数为-0.5.证明详见陈,173.批注[A9]:陈强,174-175。Xttest2仅适用于长面板(t大n小)。基本思想:如果不存在截面相关,则根据残差计算的个体扰动项之间的相关系数应接近于0.或者说残差相关系数矩阵的非主对角元素应离0不远。,而xtcsd也适用于短面板,原假设也是不存在截面相关。批注[微软用户10]:在检验中,Re本身已经较大程度上考虑了异方差问题,主要体现在ui上。因此主要考虑fe下的组间异方差问题。根据似然比原理去检验原假设。10该假设在有些情况下并不合理,比如我们在研究不同省份的政府消费或不同规模的上市公司的收益时,一般都会认为干扰项会存在异方差。当模型中存在异方差时,在同方差假设下得到的估计量虽然仍旧是无偏且一致的,但不具有效性。此时,应该用广义最小二乘法(GLS)或FGLS对模型进行估计。这里我们放松同方差假设,介绍三种允许异方差设定的模型:固定效应模型中it存在异方差;随机效应模型中ia和it存在异方差。1.固定效应模型中it存在异方差我们首先将所有观察值进行堆叠,于是将固定效应模型用矩阵形式表示为:yDaX(17)其中,12(,,...,)Nyyyy,12(,,...,)N,均为1NT向量,1NTDI,12(,,...,)Naaaa。先定义一些有用的矩阵运算。定义NTDDIJ,其中,11TTTJ为TT维矩阵,每个元素均为1。同时,我们定义1()NTPDDDDIJ,(1/)TTJTJ是TT维矩阵,每个元素均为(1/)T;1()NTNTQIDDDDIP。矩阵P和Q都具有如下性质:1)对称性、幂等性:PP,且2PP2)正交性:0PQ3)和为单位矩阵:NTPQI这里我们将前面的假设放松为:2[,]iiiiTVarXaI(18)令2[]idiag,为NN矩阵,则0[][]TVarEI(19)易于证明0QD,因此可以在(17)式两边左乘Q以消除固定效应,得到***yX(20)其中,*yQy,*XQX,*Q。干扰项的方差-协方差矩阵可以表示为:*0[][]VarEQQQQ(21)于是模型(20)的GLS估计量为:*1*1*1*11100ˆ[][]GLSXXXyXXXy(22)而ˆGLS的方差估计量为:*1*1110ˆ[][][]GLSVarXXXX(23)11要获得相应的FGLS估计量,我们需要首先估计出中包含的未知参数2i。令ˆitititWGeyX,其中ˆWG为模型(17)在同方差假定性的组内估计量。则我们可以得到2i的一致估计量:2211ˆTiitteT。于是,2ˆˆ[]idiag。用0ˆˆTI分别代替(22)和(23)式中的0就可以得到相应的FGLS估计量。2.随机效应模型中ia存在异方差模型的基本设定为:ititityxu(24)itiitua(25)其中,2(0,)iia,2(0,)itIID。采用矩阵形式可表示为:yXu(26)auZa(27)其中,1aNTZI,12(,,...,)naaaa。干扰项的方差矩阵为:2[][]aaaNTVaruEuuZZI(28)其中,2[][]aiEaadiag为NN矩阵。(28)式可以进一步表示为:22[][]iTTdiagJdiagI(29)这里2[]diag也是NN对角矩阵。若我们用TTJTJ和TTTIEJ分别替换(29)式中的TJ和TI,则可将(29)式变换为:222[][]iTTdiagTJdiagE(30)因此,22[()][()]rrriTTdiagJdiagE其中,222iiT,r为任意实数。我们对(26)式左乘1/2[/]()iTNTdiagJIE(31)得到变换后的模型为:***yXv其中,*1/2yy,*1/2XX,*1/2vv。显然,*2[]NTVarvI满足同方差假设。要获得FGLS估计,需要估计2和2i。由于存在异方差的情况下,模型(24)的组内估计量仍然是一致的,所以我们可以利用组内估计的残差ite来估计2:1222111ˆNTititeNTNk(32)同时我们注意到,222[]itiiVaru。而模型(24)的混合最小二乘估计也是一致的,所以我们可以利用OLS残差估计2ˆi11ˆ(1TitteT2ˆ)ie(33)进而得到2ˆi=2ˆi-2ˆ(34)在得到2i和2的一致估计量2ˆi和2ˆ后,代入(29)式,即可得到的一致估计量ˆ。我们得到的FGLS估计量为:ˆFGLS11ˆ[]XX1ˆXy(35)相应的方差估计量为:11ˆˆ[][]FGLSVarXX(36)3.随机效应模型中it存在异方差将模型的异方差形式设定为:2(0,)iua,2(0,)iti,此时22[][]uTiTdiagJdiagI(37)若我们用TTJTJ和TTTIEJ分别替换(29)式中的TJ和TI,则可将(37)式变换为:222[][]uiTiTdiagTJdiagE(38)同时,22[()][()]rrriTiTdiagJdiagE(39)其中,222iuiT,r为任意实数。因此,1/2[1/][1/]iTiTdiagJdiagE(40)为了获得FGLS估计量,我们可以仿照前面的处理方式,采用OLS和组内估计量的残差来估计2i和2i。令ite和ˆite分别为组内估计量和OLS估计的残差,则2i的估计式为:2211ˆ()1TiititeeT(41)其中,1(1/)TiitteTe。由于222[]itiuiiVaru,所以我们可以得到:2ˆi11ˆ(1TitteT2ˆ)ie(42)13其中iˆe1ˆ(1/)TittTe,进而得到N个2u的估计值:2ˆui22ˆii(43)于是我们可以利用这N个估计值的平均值得到2ˆu:2ˆu211ˆNuiiN2211ˆ()NiiiN(44)五、STATA实现(一)基本设定1.面板数据的导入和存储先在Excel中将面板数据以横截面(或时间)的形式堆积起来。然后在STATA中打开数据导入窗口,可直接将Excel表格中的数据复制粘贴过来。当然也可以直接在STATA的数据编辑窗口对数据进行编辑。2.定义面板数据方法一:xtsetidyear方法二:tssetidyear其中,变量id和year分别为截面变量和时间变量。id可以是company,industry,region或country;时间变量可以是年度、季度或月度变量,即year,quarter,或month。显然,通过这两个变量我们可以非常清楚地确定paneldata的数据存储格式。因此,在使用STATA估计模型之前,我们必须告诉它截面变量和时间变量分别是什么,所以用命令tsset或xtset。如tssetindustryyear。该命令输出的结果为:panelvariable:industry,1to20timevariable:year,1to10这里需要指出的是,由于paneldata本身截面数据和时间序列二者的特性,所以对时间序列进行操作的运算同样可以应用到paneldata身上。这一点在处理某些数据时显得非常方便。比如,对产出变量y,我们想产生一个新的变量lag_y,即y的一阶滞后变量,我们可以采用命令gen:genlag_y=l.y按照这样的思路,我们还可以产生某个变量的对数、差分等。总之,凡是可以应用到时间序列上的命令,基本上都可以应用到paneldata中来。(二)统计描述在正式进行模型的估计之前,我们必须对样本的基本分布特征有一个总体的14了解。对于paneldata而言,我们至少要知道我们的数据中有多少个截面,每个截面上有多少个观察期间,整个数据结构是平行的还是非平行的。进一步地,我们还要知道主要变量的样本均值、标准差、最大值、最小值等情况。这些都可以通过以下三个命令来完成:(1)tsset或xtset命令。该命令设定数据集为面板格式。(2)xtdes命令。该命令用于初步了解数据的大体分布状况,我们可以知道数据中包含多少个截面,每个截面最大和最小的时间跨度是多少。在某些要求使用平衡面板数据的情况下,我们可以使用该命令来诊断处理后的数据是否为平衡数据。(3)xtsum命令。该命令事实上式我们经常使用的命令summary的扩展,分组内、组间和样本整体三个层次计算各个的基本统计量。(三)面板数据模型估计STATA9.0及以上版本主要提供了如下几种面板数据模型的估计方法,如表1所示。表1用于估计各种面板数据模型的命令1.常用的估计命令功能xtreg固定效应估计(FE)、组间估计(between)、随机效应估计(RE)、总体平均估计(population-averaged)、最大似然估计(mle)等xtregar残差项为一阶自相关的固定效应或随机效应模型估计xtgls对随机效应模型的广义最小二乘估计(GLS)xtpcse混合回归或是经过标准差修正过的Paris-Winsten模型估计xtmixed多层混合效应回归(Multilevelmixed-effectslinearregression)xtrc随机系数回归模型xtivreg二阶段工具变量估计2.动态面板数据xtabond线性动态面板数据模型的差分广义矩估计(DifferenceGMMEstimator)xtdpdsys系统广义矩估计(SystemGMMEstimator)xtdpd线性动态面板数据模型估计3.非线性模型xttobittobit随机效应模型15xtintreg区间随机效应模型xtlogit固定、随机或总体平均logit模型xtprobit随机或总体平均probit模型xtpossion固定、随机或总体平均Possion模型xtnbreg固定、随机或总体平均负二项分布模型xtmelogit多层混合logistic回归xtmepossion多层混合Possion回归xtgee总体平均模型使用GEE估计这里我们先介绍静态面板数据模型(固定效应模型和随机效应模型)的估计方法。二者都是采用xtreg命令来估计的,差别在于选项的设定不同。表2xtreg命令中选项的含义命令适用模型be组间效应估计fe固定效应模型估计re随机效应模型GLS估计pa总体平均模型GEE估计mle最大似然估计(四)应用实例:与发展中国家的进、出口贸易对美国制造业就业的影响。数据:美国制造业20个行业1997-2006年的面板数据(只包括个体效应不包括时点效应)。模型:01234lnlnlnlnlnitiitititititNMXwY这个面板数据模型包含了七个变量,其中industry和year分别表示行业的代码和观察的年份,相当于我们前面提到的截面变量和时间变量;n表示美国制造业就业人数;m表示美国制造业从发展中国家的进口渗透率;x表示美国制造业对发展中国家的出口导向率;w表示美国制造业的平均工资;y表示美国制造业的工业增加值。对这个面板数据模型的分析步骤如下:第一步,定义面板数据。命令为:tssetidyear第二步,进行样本的描述统计。首先看看样本的大体分布情况,命令为:xtdes我们发现,我们的样本包含20个行业(N=20),每个行业有10年的资料(T=10,1997-2006),整体上为面板数据。接着,我们列出样本中主要变量的基本统计量,命令为:xtsumnmxwy。命令执行后我们发现统计结果是按照“整体”、“组16间”和“组内”三个层次进行的。第三步,面板数据模型的回归分析。我们先做固定效应模型估计,命令为:xtregnmxwy,feFtestthatallu_i=0:F(19,176)=305.30Prob>F=0.0000rho.98639594(fractionofvarianceduetou_i)sigma_e.05972157sigma_u.50853715_cons7.304297.507805814.380.0006.3021258.306469y.6408254.029272621.890.000.5830549.6985959w-1.607528.0895217-17.960.000-1.784202-1.430854x.0463425.02321682.000.047.0005233.0921616m.0365626.02379971.540.126-.0104069.0835321nCoef.Std.Err.tP>|t|[95%Conf.Interval]corr(u_i,Xb)=0.6091Prob>F=0.0000F(4,176)=327.41overall=0.8028max=10between=0.8123avg=10.0R-sq:within=0.8815Obspergroup:min=10Groupvariable:codeNumberofgroups=20Fixed-effects(within)regressionNumberofobs=200.xtregnmxwy,fe估计结果分析:结果的前两行列示了模型的类别(本例中为固定效应模型)、截面变量以及估计值使用的样本数目和个体的数目。第3行到第5行显示了模型的拟合优度,分为组内、组间和样本总体三个层次。第6行和第7行分别显示了针对参数联合检验的F统计量和相应的P值,表明参数的整体显著性。第9-13行显示了解释变量的估计系数、标准差、t统计值和相应的P值以及95%置信区间。最后几行显示了固定效应模型中个体效应和随机干扰项的方差估计值(分别为sigma_u和sigma_e)、二者之间的关系(rho)。最后一行还给出了检验固定效应是否显著的F统计量和相应的P值。如何在个体固定效应模型中显示每个个体的截距项?xi:regnmxwyi.id或者在模型中加入虚拟变量。由于固定效应模型假设存在着个体效应,每个个体都有其单独的截距项。这就相当于在原方程中引入n-1个虚拟变量。tabid,gen(dum)dropdum1regnmxwydum*我们再做随机效应模型估计,命令为:xtregnmxwy,re可以比较一下随机效应模型的估计结果与固定效应模型的差异。17rho.97353779(fractionofvarianceduetou_i)sigma_e.05972157sigma_u.36223849_cons6.584289.502715913.100.0005.5989847.569594y.6743377.029259423.050.000.6169903.7316852w-1.568034.0858865-18.260.000-1.736368-1.3997x.0545215.02324622.350.019.0089598.1000832m.0196048.02282310.860.390-.0251276.0643373nCoef.Std.Err.zP>|z|[95%Conf.Interval]corr(u_i,X)=0(assumed)Prob>chi2=0.0000Randomeffectsu_i~GaussianWaldchi2(4)=1287.86overall=0.8344max=10between=0.8442avg=10.0R-sq:within=0.8804Obspergroup:min=10Groupvariable:codeNumberofgroups=20Random-effectsGLSregressionNumberofobs=200.xtregnmxwy,re第四步,模型的筛选和检验。这是模型设定过程中最为关键同时也是最难的一步,主要涉及使用混合OLS模型、固定效应模型还是随机效应模型,更进一步还可能包括序列相关和异方差的检验等问题。(1)检验个体效应的显著性。对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上是否显著。如果F统计量较大,其相应的P值较小,则表明固定效应模型优于混合OLS模型。在eviews中可以用View/Fixed/RandomEffectsTesting/redundantfixedeffexttest来实现。下面我们说明如何检验随机效应是否显著,命令为:xttest0。检验得到的chi2统计量较大,相应的P值较小,则表明随机效应非常显著,即随机效应模型也优于混合OLS模型。至于固定效应模型和随机效应模型哪个更好,则要采用Hausman检验来确定。Prob>chi2=0.0000chi2(1)=762.83Test:Var(u)=0u.1312167.3622385e.0035667.0597216n.8035162.8963906Varsd=sqrt(Var)Estimatedresults:n[code,t]=Xb+u[code]+e[code,t]BreuschandPaganLagrangianmultipliertestforrandomeffects.xttest0(2)Hausman检验。具体步骤为:第一步:quixtregnmxwy,feeststorefe第二步:quixtregnmxwy,reeststorere第三步:hausmanfere批注[A11]:在执行命令xtreg,re后才能使用。陈强,160.18这里,qui的作用在于不把估计结果输出到屏幕上,eststore的作用在于把估计结果存储到名称为fe的临时文件中。输出结果为:(V_b-V_Bisnotpositivedefinite)Prob>chi2=0.0000=57.14chi2(4)=(b-B)'[(V_b-V_B)^(-1)](b-B)Test:Ho:differenceincoefficientsnotsystematicB=inconsistentunderHa,efficientunderHo;obtainedfromxtregb=consistentunderHoandHa;obtainedfromxtregy.6408254.6743377-.0335123.0008776w-1.607528-1.568034-.0394941.0252516x.0463425.0545215-.008179.m.0365626.0196048.0169578.0067476fereDifferenceS.E.(b)(B)(b-B)sqrt(diag(V_b-V_B))Coefficients在Hausmantest结果中,如果chi2值较大,相应的P值很小,则应拒绝原假设,进行固定效应模型估计;如果chi2值较小,相应的P值较大,则应进行随机效应模型估计。在进行Hausman检验过程中,有时我们还会得到负的chi2值。产生这个情况的主要原因是我们的模型设定有问题,导致Hausman检验的基本假设得不到满足。这时,我们最好先对模型的设定进行分析,看看是否有遗漏变量的问题,或者某些变量是非平稳的等等。在确定模型没有设定问题的情况下再进行Hausman检验,如果仍然拒绝原假设或是出现上面的问题,那么我们就认为随机效应模型的基本假设(个体效应与解释变量不相关)得不到满足。此时,需要采用工具变量法或是使用固定效应模型。STATA9.0级以上的版本,使用hausman命令中新增的sigmaless和sigmamore两个选项可以大大降低上述chi2值为负的情况出现的次数。在eviews中,hausman检验通过View/Fixed/RandomEffectsTesting/CorrelatedRandomEffects-HausmanTest来实现。双向固定效应如果希望进一步在上述模型中加入时间效应,那么可以采用时间虚拟变量来实现。xi:xtregnmxwyi.year,fe或者:首先需要定义T-1个时间虚拟变量,命令为:tabyear,gen(yr)dropyr1这里,year为样本中表示时间的变量,选项gen(yr)的作用在于产生T个年度虚拟变量,第二条命令的作用在于去掉第一个虚拟变量以避免共线性。若固定19效应模型中加入时间虚拟变量,则估计命令为:xtregnmxwyyr*,fe若随机效应模型中加入时间虚拟变量,则估计命令为:xtregnmxwyyr*,re无论估计哪一个模型,检验时间效应是否显著的命令均为:testyr2=yr3=yr4=yr5=yr6=yr7=yr8=yr9=yr10=0这里我们假设T=10,所以共有9个时间虚拟变量。时点效应的显著性也可以通过lr检验进行:xtregnmxwy,feeststorefe1xtregnmxwyyr*,feeststorefe2lrtestfe1fe2序列相关和截面相关检验对于固定效应模型,我们可以采用基于差分估计量的检验方法来检验序列相关是否存在,命令为xtserial(这个命令需要下载):xtserialnmxwyProb>F=0.0006F(1,19)=16.655H0:nofirst-orderautocorrelationWooldridgetestforautocorrelationinpaneldata.xtserialnmxwy对于随机效应模型,我们可以采用xttest1命令(该命令需要下载),命令为:quixtregnmxwy,rexttest1LM(Var(u)=0,lambda=0)=767.08Pr>chi2(2)=0.0000JointTest:ALM(lambda=0)=4.25Pr>chi2(1)=0.0394SerialCorrelation:ALM(Var(u)=0)=23.78Pr>N(0,1)=0.0000RandomEffects,OneSided:ALM(Var(u)=0)=565.59Pr>chi2(1)=0.0000RandomEffects,TwoSided:Tests:u.1312167.36223849e.0035667.05972157n.8035162.8963906Varsd=sqrt(Var)Estimatedresults:v[code,t]=lambdav[code,(t-1)]+e[code,t]n[code,t]=Xb+u[code]+v[code,t]Testsfortheerrorcomponentmodel:.xttest1该命令式针对随机效应模型的,汇报了7个统计量,用于检验随机效应(单20尾和双尾)、序列相关以及二者的联合显著性。检验结果表明存在随机效应和序列相关,而且对随机效应和序列相关的联合检验也非常显著。如果固定效应模型或随机效应模型中残差项存在一阶自相关,此时可用xtregar命令进行固定或随机效应估计,命令为:xtregarnmxwy,fe或者xtregarnmxwy,re许多面板数据都是针对行业和企业的,因此截面间往往会存在相关性,我们可以利用xttest2命令(针对“窄而长”的面板数据)来检验固定效应模型中截面间的相关性是否显著。对于“宽而短”的面板数据模型,可以在固定效应和随机效应估计后使用xtcsd命令进行检验,检验命令为:固定效应模型:quixtregnmxwy,fextcsd,freesxtcsd,pesaranshow随机效应模型:quixtregnmxwy,rextcsd,friedmanshowabsalpha=0.01:0.5198alpha=0.05:0.3429alpha=0.10:0.2559CriticalvaluesfromFrees'Qdistribution|--------------------------------------------------------|Frees'testofcrosssectionalindependence=3.455.xtcsd,frees.quixtregnmxwy,fe截面异方差对于固定效应模型而言,我们还可以检验截面异方差性,命令为:xttest3Prob>chi2=0.0000chi2(20)=10563.03H0:sigma(i)^2=sigma^2foralliinfixedeffectregressionmodelModifiedWaldtestforgroupwiseheteroskedasticity.xttest3以上检验结果表明,模型中存在截面异方差、截面相关和序列相关,此时可进行广义最小二乘回归,并控制选择残截面的相关性和异方差。命令为:xtglsnmxwydum2-dum20,panels(cor)corr(ar1)模型中的异方差和自相关情形不同,GLS估计的控制选
/
本文档为【静态面板数据模型(研究生课程)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索