为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

多元线性回归模型分析一

2021-02-19 86页 ppt 736KB 12阅读

用户头像 机构认证

爱赢

公司经营范围:网络软件设计、制作、图文设计、影视制作(编辑)

举报
多元线性回归模型分析一第三章多元线性回归模型**可编辑ppt多元线性回归模型是我们课程的重点,原因在于:多元线性回归模型应用非常普遍;原理和方法是理解更复杂计量经济学模型的基础;内容较为丰富。从而,我们应不遗余力地学,甚至是不遗余力地背!!!可编辑ppt本章主要内容多元线性回归模型的描述参数的OLS估计OLS估计量的有限样本性质参数估计量的方差-协方差矩阵和随机误差项方差2的估计单方程模型的统计检验多元线性回归模型实例可编辑ppt§3.1多元线性回归模型的描述可编辑ppt1、多元线性回归模型的形式由于在实际经济问题中,一个变量往往受到多个原因变...
多元线性回归模型分析一
第三章多元线性回归模型**可编辑多元线性回归模型是我们课程的重点,原因在于:多元线性回归模型应用非常普遍;原理和方法是理解更复杂计量经济学模型的基础;内容较为丰富。从而,我们应不遗余力地学,甚至是不遗余力地背!!!可编辑ppt本章主要内容多元线性回归模型的描述参数的OLS估计OLS估计量的有限样本性质参数估计量的方差-协方差矩阵和随机误差项方差2的估计单方程模型的统计检验多元线性回归模型实例可编辑ppt§3.1多元线性回归模型的描述可编辑ppt1、多元线性回归模型的形式由于在实际经济问题中,一个变量往往受到多个原因变量的影响;“从一般到简单”的建模思路。所以,在线性回归模型中的解释变量有多个,至少开始是这样。这样的模型被称为多元线性回归模型。多元线性回归模型参数估计的原理与一元线性回归模型相同,只是计算更为复杂。可编辑ppt以多元线性回归模型的一般形式——K元线性回归模型入手进行讲解,其模型结构如下:Y=x11+x22+…+xkk+(1)其中,Y是被解释变量(因变量、相依变量、内生变量),x是解释变量(自变量、独立变量、外生变量),是随机误差项,i,i=1,…,k是回归参数。线性回归模型的意义在于把Y分成两部分:确定性部分和非确定性部分。可编辑ppt在研究中,我们根本无法了解式(1)所示的总体模型的特征,而只能通过样本特征来近似考察。设经过n次试验,得到n个样本,如下所示:y1x11x12…x1ky2x21x22…x2k……ynxn1xn2…xnk从而得到达式如下:Yi=xi11+xi22+…+xikk+i(2)其中,式(1)称为总体线性模型;式(2)称为样本线性模型。可编辑ppt在计量经济学分析中,通常会借助矩阵工具,在此亦将多元线性模型表示成矩阵形式,以便于下一步的数学运算。(3)写成一般形式为:Y=X+(4)针对式(4),在这里主要讲参数估计和统计推断,但在此之前,我们要先回顾一下什么模型才是多元线性回归模型,即了解线性回归模型的6大假设,这一点十分重要。可编辑ppt(1)线性性。即要求模型关于参数是线性的,关于扰动项是可加的。(2)满秩。说明解释变量之间是线性无关的,这一假设很重要,在后面会经常受到。(3)回归性。x与不相关。(4)x的DGP是外生的。x相对于y是外生的,是非随机的。(5)球形扰动。同方差性和非自相关性。(6)正态假设。可编辑ppt2、多元回归方程及偏回归系数的含义称为多元回归方程(函数)。多元回归分析(multipleregressionanalysis)是以多个解释变量的固定值为条件的回归分析,并且所获得的是诸变量X值固定时Y的平均值。诸i称为偏回归系数(partialregressioncoefficients)。在经典回归模型的诸假设下,对(1)式两边求条件期望得E(Y|X1,X2,…Xk)=x11+x22+…+xkk可编辑ppt偏回归系数的含义如下:1度量着在X2,X3,…,Xk保持不变的情况下,X1每变化1个单位时,Y的均值E(Y)的变化,或者说1给出X1的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。其他参数的含义与之相同。可编辑ppt例:其中,Ct=消费,Dt=居民可支配收入Lt=居民拥有的流动资产水平β2的含义是,在流动资产不变的情况下,可支配收入变动一个单位对消费额的影响。这是收入对消费额的直接影响。收入变动对消费额的总影响=直接影响+间接影响。(间接影响:收入流动资产拥有量消费额)但在模型中这种间接影响应归因于流动资产,而不是收入,因而,β2只包括收入的直接影响。在下面的模型中:这里,β是可支配收入对消费额的总影响,显然β和β2的含义是不同的。偏回归系数bj就是xj本身变化对y的直接(净)影响。可编辑ppt需要说明的是,如果令x1≡1,则1便是常数项。习惯上把常数项看成为一个虚变量的系数,在参数估计过程中该虚变量的样本观测值始终取1。通常,一定要假设在模型中有常数项,即尽量让模型包含常数项,以中心化误差。可编辑ppt§3.2参数的OLS估计参数的OLS估计附录:极大似然估计和矩估计投影和投影矩阵分块回归和偏回归偏相关系数可编辑ppt我们的模型是:残差为:一、参数的OLS估计普通最小二乘估计原理:使样本残差平方和最小Y=x11+x22+…+xkk+关键问题是选择的估计量b(或),使得残差平方和最小。可编辑ppt要使残差平方和于是得到关于待估参数估计值的K个方程(即正规方程组):为最小,则应有:可编辑ppt按矩阵形式,上述方程组可表示为:可编辑ppt即可编辑ppt残差可用矩阵表示为:可编辑ppt残差平方和可编辑ppt注意到上式中所有项都是标量,且与采用标量式推导所得结果相同。因为x是满秩的(假设2),所以(X‘X)-1存在。所以,得到的估计为用向量展开或矩阵微分法(前导不变后导转置),我们可得到关于待估参数估计值的正规方程组:令故可编辑ppt注:这只是得到了求极值的必要条件。到目前为止,仍不能确定这一极值是极大还是极小。接下来考察求极值充分条件。可编辑ppt注意到上述条件只是极小化问题的必要条件,为了判断充分性,我们需要求出目标函数的Hessian矩阵:如果这个Hessian矩阵是正定的,则可以判断所得到的解是唯一的最小二乘解。显然,根据正定矩阵的定义或者正定矩阵的判断准则,可知当矩阵的满秩条件满足时,矩阵是正定的,因此最小二乘解的充分性成立。从而,OLS估计量为:可编辑ppt样本回归线的数值性质需要注意的是,上述命题成立的前提是线性模型中包含常数项,也就是第一个解释变量是“哑变量”形式。这样一个思考题目就是,当线性模型中不包含常数项时,结论是什么样的?可编辑ppt可编辑ppt可编辑ppt(3)的证明方法1因为Σei=0,所以对两边求和即可。可编辑ppt附录:极大似然估计可编辑ppt回忆一元线性回归模型可编辑ppt将该或然函数极大化,即可求得到模型参数的极大或然估计量。可编辑ppt由于或然函数的极大化与或然函数的对数的极大化是等价的,所以,取对数或然函数如下:可编辑ppt同理,分析多元线性回归模型Y的随机抽取的n组样本观测值的联合概率可编辑ppt对数似然函数为参数的极大似然估计结果与参数的普通最小二乘估计相同可编辑ppt附录:矩估计(MomentMethod,MM)矩估计是基于实际参数满足一些矩条件而形成的一种参数估计方法。随机变量的均值和方差如何得到?例:总体:E(Y-μ)=0样本矩(用样本矩估计总体矩):满足相应的矩条件:可编辑ppt同理,方差的估计量是样本的二阶中心矩。现在,考虑一元线性回归模型中的假设条件:其所对应的样本矩条件分别为:可编辑ppt可见,与OLS估计量的正规方程组是相同的。多元线性回归模型矩估计的矩条件通常是这样构造的:对于多元线性回归模型Y=Xβ+ε两边分别左乘,即得到上式称为总体回归方程的一组矩条件。现在,我们随机抽取样本,用样本矩代替总体矩,得到:可编辑ppt解此正规方程组即得参数的估计量,这种估计方法称为矩估计。其参数估计结果与OLS一致。样本形式:用每个解释变量分别乘以模型的两边,并对所有样本点求和,即得到:可编辑ppt对每个方程的两边求期望,有:可编辑ppt得到一组矩条件求解这组矩条件,即得到参数估计量与OLS、ML估计量等价可编辑ppt矩方法是工具变量方法(InstrumentalVariables,IV)和广义矩估计方法(GeneralizedMomentMethod,GMM)的基础在矩方法中关键是利用了如果某个解释变量与随机项相关,只要能找到1个工具变量,仍然可以构成一组矩条件。这就是IV。如果存在>k+1个变量与随机项不相关,可以构成一组方程数>k+1的矩条件。这就是GMM。可编辑ppt广义矩估计中,矩条件的个数大于参数个数,会出现什么问题呢?过度识别则必须想办法调和出现在过度识别系统中相互冲突的估计。那如何解决呢?广义矩估计的思想是使得样本矩与总体矩的加权距离(即马氏距离)最小。主要是考虑到不同的矩所起的作用可能不同。可编辑ppt可编辑ppt注意:GMM估计是一个大样本估计。在大样本的情况下,GMM估计量是渐进有效的,在小样本情况下是无效的。所以,只有在大样本情况下,才能使用GMM方法进行参数估计。可编辑ppt二、投影和投影矩阵——OLS估计的几何性质获得最小二乘估计以后,可以获得下述最小二乘残差:将最小二乘估计的表达式代入,得到:其中定义的矩阵在回归分析中是非常基础和重要的。显然,这个矩阵是对称幂等矩阵:其次,还有一些重要的性质需要注意,例如对称幂等矩阵的特征根非0即1(对称矩阵的特征根均为实数),因此矩阵具有性质:矩阵的迹等于矩阵的秩。可编辑ppt显然,矩阵M的作用是,它乘积作用在某个向量y上,就可以得到这个向量y基于数据变量的最小二乘回归的残差向量,因此经常将这个矩阵称为“残差生成矩阵”(residualmaker)。这里需要注意M的定义和所作用的变量,是所作用变量关于M定义中数据矩阵的回归残差。即可编辑ppt显然,X基于自己的线性回归的最小二乘残差一定为零,则必然有(即使验证也十分显然):根据此性质,我们来考察最小二乘估计的性质。已知:这说明最小二乘回归将变量y分解成为两个部分,一个部分是拟合值,另一个部分是残差e,由于可编辑ppt这说明最小二乘回归与残差是正交的。因此,这样的分解是正交分解,也就是说最小二乘的拟合值向量和残差向量是正交的(意味着这两个向量之间的夹角为垂角)。这时也可以得到:这里矩阵也是一个对称幂等矩阵,我们称其为投影矩阵(projectmatrix),它是由矩阵X构成的,并且它如果乘积作用到向量y上,则可以得到y基于变量X的最小二乘回归的拟合值。这也是向量y在矩阵X的各列生成的线性空间上的投影。可编辑ppt注释:假设y在矩阵X的各列生成的线性空间上的投影是yp,则yp的定义是:且选择使得由于上述向量之间的模与最小二乘距离是一致的,因此投影值便是最小二乘估计的拟合值,即可编辑ppt为了更好地理解上述定义和公式,我们将一些有用的结论归纳为下述命题:命题1在线性模型的最小二乘估计中,可以得到:(1)P+M=I(显然)(2)PM=MP=0,即矩阵P与M是正交的。证明:因为P=I-M,所以PM=(I-M)M=M-M2=0(3)矩阵P具有自投影不变性,即PX=X。(4)向量y可以通过投影进行正交分解,即分解为投影和残差:y=Py+My。证明:y=Iy=(P+M)y=Py+My,投影和残差是正交的可编辑ppt(5)平方和分解公式成立:证明:因为所以(6)残差平方和可以表示为:证明:因为e=My,且M是对阵幂等矩阵,所以可编辑ppt(7)残差平方和也可以表示为:证明:根据(5)式,可得而且可推知,又因为e=y-Xb,则有可编辑ppt三、分块回归与偏回归(partitionedregressionandpartialregression)通常在进行线性回归时我们假定了完全的回归变量,但事实上我们只对其中的部分变量感兴趣。这时我们就需要考虑将一部分变量从回归变量中删除所导致的结果。假设回归方程中涉及到两部分变量X1和X2,这时有:由于X=(X1,X2),k1k2可编辑ppt请问:根据模型得到的b1,是否与根据模型得到的b1相等?思考可编辑ppt则有:可编辑ppt从而,正规方程组X‘Y=X’Xb变成:从而得到可编辑ppt上述四块矩阵可以通过下述分块逆矩阵公式得到:利用该公式可得到:可编辑ppt以上结果也可以直接计算得到:由正规方程组得到:根据第一个方程得到可编辑ppt上述解的公式表明,系数的最小二乘估计是y基于X1的回归系数,减去一个修正向量。上述获得参数估计的过程具有典型的统计意义,首先,是被解释变量中剔除变量X2的剩余部分;其次,将剩余部分基于X1再进行回归,因此,参数估计是剔除变量X2所剩余的部分。一种特殊情形是,这时,正好是y基于X1的回归系数。更为一般的结果可以由下述定理给出:可编辑ppt定理1:正交分块回归在变量y基于两部分变量X1和X2进行多元线性回归时,如果这两个变量之间是正交的,则X1和X2的回归系数可以通过单独进行y基于X1的回归系数和基于X2的回归系数得到。可编辑ppt可编辑ppt可编辑ppt上述结论对于回归分析来说是一个基础结论,非常重要。可以进一步归纳成为下述定理:定理(Frisch-WaughTheorem):在向量Y基于两部分变量X1和X2的最小二乘回归中,系数最小二乘估计的部分估计可以通过Y基于变量X1的残差,再基于X2的每列基于变量X1回归的残差,进行回归的回归系数得到。可编辑ppt这个过程一般被称为变量X1作用的“挤出”或者“分离”过程。出于这个原因,多元回归系数经常被称为偏回归系数(partialregressioncoefficients)。对于这个情形的一种特例,我们考虑向量Y基于一组变量X和一个附加变量Z的最小二乘回归问题。这时最小二乘系数表示为b和c。这种情形下的结果可以由下述推论得到:可编辑ppt例子:这个命题的一个直接应用是,可以考虑采用时间趋势脱离后的残差向量进行替代,以求出包含时间变量的多元回归系数。这与将时间T作为解释变量放入模型中的效果是等同的。可编辑ppt例子:在下列模型中Earnings=a+b*education+c*age+d*age2+e第二个系数b如何得到?可编辑ppt作为这些结论的一个应用,我们考虑矩阵X的第一列全为1的包含常数项的情形。可编辑ppt通常将称为中心化矩阵。从矩阵结构可以看出,其与变量X无关,只是一个数据转换工具,其中的矩阵Jn被称为列求和矩阵。例子:中心化矩阵是对称幂等矩阵吗?其是否满秩?可编辑ppt可编辑ppt四、偏回归与偏相关系数(partialregressionandpartialcorrelationcoefficients)多元回归的用途之一,是提供了一个概念性框架,用以解决实践中难以进行的实验,就象经济学中的“其他假设不变”(ceterisparibus)的分析。比如说,在收入与教育关系的多元线性回归模型中,我们能够比较两个年龄完全相同,但教育水平不同的人的收入,即使我们的样本中并不包含这样的个体数据。这就是偏回归系数的特征。可编辑ppt可编辑ppt可编辑ppt偏回归系数是这样得到的:我们将收入和教育分别基于年龄回归,得到回归残差。我们知道,年龄对这些残差毫无解释能力。因此,“挤出”年龄影响后的成分之间的关系是完全独立于年龄的。同样的道理可以应用到两个变量之间的相关关系方面。在多元回归中,“偏相关系数”经常表示两个变量之间的“直接关系”,这是一种分离其他变量影响之后的两者之间的“净关系”。可编辑ppt可编辑ppt可编辑ppt可编辑ppt可编辑ppt可编辑ppt可编辑ppt可编辑ppt可编辑ppt关于两个模型y=xd+zc+u和y=xb+e的残差平方和的详细关系的推导见下页:可编辑ppt可编辑ppt可编辑ppt可编辑ppt上述定理的一个重要启示是,只要增加线性回归模型中的解释变量,就可以降低回归模型的残差平方和。这样一来,无论解释变量与相依变量之间的关系如何,解释变量都是“有用”的或者是“有价值”的。可编辑ppt例子:取自Greene的《经济计量分析》投资与其余变量之间的关系表简单相关系数偏相关系数时间0.7496-0.9360GNP0.86320.9680利率0.5871-0.5167通货膨胀0.4777-0.0221注意到:偏相关系数的符号与多元回归模型的参数符号相同。可编辑ppt
/
本文档为【多元线性回归模型分析一】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索