null面板数据的处理面板数据的处理引言引言如果想估计我国的“消费函数”
如果我有2005年31个省市自治区的“家庭可支配收入”与“家庭消费”的数据
则画散点图;
做回归;
null引言引言利用2005年31个省市自治区的“家庭可支配收入”与“家庭消费”的数据:
CONS = -10.51 + 1.31*INCOME引言引言如果想估计我国的“消费函数”
如果我有北京市2000—2008年的“家庭可支配收入”与“家庭消费”的数据
则画散点图;
做回归;
null引言引言利用北京市2000—2008年的“家庭可支配收入”与“家庭消费”的数据:
CONS = -4732.85 + 1.72*INCOME引言引言如果想估计我国的“消费函数”
如果我有31个省市自治区,从2000—2008年的“家庭可支配收入”与“家庭消费”的数据
应该如何做回归?
引言引言可能的处理
:
谨慎型
无知者无谓型引言引言谨慎型
估计31个不同地区的消费方程;
本质假设:消费行为在不同地区之间有差异,但同一地区在不同时间内没有差异;引言引言谨慎型
估计9个不同时期的全国消费方程;
本质假设:消费行为在不同地区之间没有差异,但同一地区在不同时间内有差异;引言引言无知者无谓型
把所有数据混在一起做回归;
本质假设:消费行为在不同地区之间没有差异,同一地区在不同时间内也没有差异;引言引言上述处理方法的缺陷
没有充分利用数据;
无法避免遗漏变量的影响;
有时候无法进行上述处理;面板数据的处理面板数据的处理一、基本概念
二、案例:啤酒税与交通死亡率之间的回归面板数据的处理面板数据的处理一、基本概念
面板数据(panel data)
平衡面板数据、非平衡面板数据(balanced panel data)二、案例研究:
啤酒税与交通死亡率 二、案例研究:
啤酒税与交通死亡率 U.S. traffic death data for 1982: U.S. traffic death data for 1982: 较高的酒精税,更多的交通死亡吗? $1982U.S. traffic death data for 1988 U.S. traffic death data for 1988 较高的酒精税,更多的交通死亡吗? 啤酒税越高,交通死亡率越高??? 啤酒税越高,交通死亡率越高??? 遗漏因素可能引起遗漏变量偏误。 遗漏因素可能引起遗漏变量偏误。 Example #1: traffic density. Suppose: (i) High traffic density means more traffic deaths (ii) (Western) states with lower traffic density have lower alcohol taxes · 两时期面板数据两时期面板数据nullSuppose Eu|BeerTax, i) = 0.主要的想法: 从1982到1988年死亡率的任何改变,不可能由Zi引起,因为(by assumption)在1982到1988年期间 Zi 没有改变 数学: consider fatality rates in 1988 and 1982: FatalityRatei1988 = b0 + b1BeerTaxi1988 + b2Zi + ui1988 FatalityRatei1982 = b0 + b1BeerTaxi1982 + b2Zi + ui1982 (ititZ 把两个时期的回归方程相减nullFatalityRatei1988 = b0 + b1BeerTaxi1988 + b2Zi + ui1988 FatalityRatei1982 = b0 + b1BeerTaxi1982 + b2Zi + ui1982 so FatalityRatei1988 – FatalityRatei1982 = b1(BeerTaxi1988 – BeerTaxi1982) + (ui1988 – ui1982) · 新的误差项, (ui1988 – ui1982), 与BeerTaxi1988或BeerTaxi1982.都不相关。 · 这个“相减的”等式可以用OLS进行估计, 尽管Zi 无法观测。 啤酒税与交通死亡率 啤酒税与交通死亡率 FatalityRate v. BeerTax: FatalityRate v. BeerTax: 固定效应的回归
Fixed Effects Regression 固定效应的回归
Fixed Effects Regression What if you have more than 2 time periods (T > 2)? Yit = b0 + b1Xit + b2Zi + uit, i =1,…,n, T = 1,…,T null nullYit = b0 + b1Xit + b2Zi + ui, i =1,…,n, T = 1,…,T nullFor TX: YTX,t = b0 + b1XTX,t + b2ZTX + uTX,t = (b0 + b2ZTX) + b1XTX,t + uTX,t The regression lines for each state in a picture The regression lines for each state in a picture null
: 两种方法写出固定效应模型 “n-1二元自变量”的形式 总结: 两种方法写出固定效应模型 “n-1二元自变量”的形式 固定效应回归的
估计固定效应回归的参数估计三种估计方法: 1. “n-1二元自变量” OLS回归 2. “Entity-demeaned(个体中心化)” OLS回归 3. “改变”设定, 无截距(仅仅适用于T = 2) 1. “n-1 binary regressors” OLS regression1. “n-1 binary regressors” OLS regression2. “Entity-demeaned” OLS regression2. “Entity-demeaned” OLS regression2. “Entity-demeaned” OLS regression2. “Entity-demeaned” OLS regression2. “Entity-demeaned” OLS regression2. “Entity-demeaned” OLS regressionExample. For n = 48, T = 7: Example. For n = 48, T = 7: Regression with Time Fixed EffectsRegression with Time Fixed EffectsTime fixed effects onlyTime fixed effects only面板数据处理方法的本质面板数据处理方法的本质为了解决“由于无法观测而遗漏重要变量”的问
!
例如,利用“截面数据”构造回归方程:
其中
但是,X2是无法观测的!怎么办???处理方法一处理方法一对每一个个体多观测几期(T期)
于是有X2,i1, X2,i2,…X2,iT
假设:该变量(X2 )在不同时期都相等!但对不同个体之间有差异。
例如:酒精税在各州是不同的,但在考察期内没有变化。处理方法一处理方法一
假设:该变量(X2 )在不同时期都相等!但对不同个体之间有差异。
固定效应模型null Suppose we have n = 3 states:
California, Texas, Massachusetts案例:酒精税与交通死亡率的回归The regression lines for each state in a picture The regression lines for each state in a picture Y = aCA + b1X Y = aTX + b1X Y = aMA+ b1X aMA aTX aCA Y X MA TX CA 处理方法一处理方法一固定效应模型的参数估计:
1、前后两期相减(适用于T=2);
2、引入(n-1)个虚拟变量的回归;
3、去中心化回归;
(1)固定效应估计量(FEE);
(2)与虚拟回归的估计量(LSDV)相同;
(3)无法估计“常数项”;处理方法一处理方法一固定效应模型的参数估计:
如果满足如下条件:
且自变量之间不存在共线性,则
那么(FEE)与(LSDV)就是一个BLUE估计量;
所有的 t检验、F检验都可以使用;
所以,可以检验“固定效应”是否存在;处理方法二处理方法二对每一时期,多观测几个个体(n个个体)
于是有X2,i1, X2,i2,…X2,iT
假设:该变量(X2 )在不同时期之间有差异!但对不同个体都相等。
例如,汽车的安全性能在考察期内提高了,该因素显然在不同州之间没有差异;处理方法二处理方法二
假设:该变量(X2 )在不同时期之间有差异!但对不同个体都相等。
这也是固定效应模型,只是在时间上固定;处理方法二处理方法二固定效应模型的参数估计:
与前述相同:
1、两个体之间相减,再回归(适用于n=2);
2、引入(T-1)个虚拟变量的回归;
3、去中心化回归;处理方法三处理方法三对每一个个体多观测几期(T期)
于是有X2,i1, X2,i2,…X2,iT
假设:该变量(X2 )在不同时期都相等!但对不同个体之间有差异。
但这个差异是随机的!而不是确定性的。处理方法三处理方法三假设:该变量(X2 )在不同时期都相等!但对不同个体之间有差异。
但这个差异是随机的!
此时,(β0+vi )体现了不同个体间的差异,
而vi是随机变量。
误差成分模型(之一)处理方法三处理方法三1、误差成分模型(之一)
要求:随机项vi与自变量X之间不相关
2、误差成分模型(之一)
随机项vi与自变量X之间相关
处理方法三处理方法三误差成分模型的参数估计
Eviews自动给出;
随机效应估计量(适用于“之一”)
固定效应估计量(适用于“之二”)