为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

多元线性回归回归

2022-04-08 87页 ppt 14MB 8阅读

用户头像 个人认证

阿_司

道路千万条,脱贫第一条

举报
多元线性回归回归多元线性回归回归第1页,共87页。2概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析等。第2页,共87页。3多变量资料数据格式例号X1X2…XpY1X11X12…X1pY12X21X22…X2pY2┆┆┆…┆┆nXn1Xn2…XnpYnY为定量变量——LinearRegressionY为二项分类变量——BinaryLogisticRegressionY为多项分类变量——MultinomialLogisticReg...
多元线性回归回归
多元线性回归回归第1页,共87页。2概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析等。第2页,共87页。3多变量资料数据格式例号X1X2…XpY1X11X12…X1pY12X21X22…X2pY2┆┆┆…┆┆nXn1Xn2…XnpYnY为定量变量——LinearRegressionY为二项分类变量——BinaryLogisticRegressionY为多项分类变量——MultinomialLogisticRegressionY为有序分类变量——OrdinalLogisticRegressionY为生存时间与生存结局——CoxRegression第3页,共87页。4(1)因素筛选:例如影响高血压的诸多因素中:1)哪些是主要因素?2)各因素的作用大小?(2)控制混杂因素(3)提高回归方程的估计精度多因素分析只有一个自变量的单因素回归更能缩小应变量Y对其估计值的离差,在预测和统计控制方面应用的效果更好。多因素回归分析主要用途:第4页,共87页。5Y,X——直线回归Y,X1,X2,…Xm——多元回归(多重回归)一、多元线性回归(multiplelinearregressoin)例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。第5页,共87页。6β0为回归方程的常数项(constant),表示各自变量均为0时y的平均值;m为自变量的个数;β1、β2、βm为偏回归系数(Partialregressioncoefficient)意义:如β1表示在X2、X3……Xm固定条件下,X1每增减一个单位对Y的效应(Y增减β个单位)。e为去除m个自变量对Y影响后的随机误差,称残差(residual)。多元回归方程的一般形式(一)多元回归模型第6页,共87页。7为y的估计值或预测值(predictedvalue);b0为回归方程的常数项(constant),表示各自变量均为0时y的估计值;由样本估计而得的多元回归方程:b1、b2、bm为偏回归系数(Partialregressioncoefficient)意义:如b1表示在X2、X3……Xm固定条件下,X1每增减一个单位对Y的效应(Y增减b个单位)。第7页,共87页。8适用条件:线性(linear)、独立性(independent)、正态性(normal)、方差齐性(equalvariance)——“LINE”。线性——自变量与应变量的关系是线性的。用散点图判断。独立性——任意两个观察值互相独立。常利用专业知识判断。正态性——就自变量的任何一个线性组合,应变量y均服从正态分布。即残差服从正态分布。常用残差图分析。方差齐性——就自变量的任何一个线性组合,应变量y的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。第8页,共87页。9(1)用各变量的数据建立回归方程(2)对总的方程进行假设检验(3)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。(二)多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。第9页,共87页。10例127名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表1中,试建立血糖与其它几项指标关系的多元线性回归方程。表127名糖尿病人的血糖及有关变量的测量结果序号i总胆固醇甘油三脂胰岛素糖化血血糖(mmol/L)(mmol/L)(μU/ml)红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3………………265.840.928.616.413.3273.841.206.459.610.4第10页,共87页。11由上表得到如下多元线性回归方程:1、建立回归方程第11页,共87页。122、回归方程的假设检验——F检验结果无显著性1)表明所观察的自变量与应变量不存在线性回归关系;2)也可能由于样本例数过少;结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。H0:β1=β2=…=βm=0H1:β1、β2、…βm不等于0或不全等于0第12页,共87页。13第13页,共87页。143、各个偏回归系数的假设检验——t检验将总胆固醇(X1)剔除。注意:通常每次只剔除关系最弱的一个因素。对于同一资料,不同自变量的t值可以相互比较,t的绝对值越大,或P越小,该自变量对Y所起的作用越大。第14页,共87页。15重新建立不包含提出因素的回归方程注意:表中偏回归系数已变化。第15页,共87页。16对新建立的回归方程进行检验检验结果有显著性意义。第16页,共87页。17对新方程的偏回归系数进行检验检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛素(X3)和糖化血红蛋白(X4)三个因素。最后获得回归方程为:第17页,共87页。181、确定系数(R2):意义:在y的总变异中,由x变量组建立的线性回归方程所能解释的比例。0~1,越大越优。特点:R2是随自变量的增加而增大。因此,在相近的情况下,以包含的自变量少者为优。(三)回归方程的评价2、R——复相关系数(multiplecorrelationcoefficient)表示m个自变量共同对应变量线性相关的密切程度。0≤R≤1。即Y与的相关系数。第18页,共87页。193、校正确定系数(adjustedR-square,R2a)越大越优。R2a不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。校正确定系数的计算:p为方程中包含的自变量个数,p≤m。R2一定时,p↑→R2a↓第19页,共87页。20第20页,共87页。21(四)自变量的筛选基本思路:尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。(1)全局择优法(allpossiblesubsetsselection):(2)逐步选择法前进法(Forwardselection)后退法(Backwardelimination)逐步法(Stepwise)第21页,共87页。221、全局择优法(最优子集回归)(allpossiblesubsetsselection):有m个自变量就有2m-1个自变量子集。在各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。第22页,共87页。232、向前筛选法(Forwardselection):事先给定一个入选,即(通常=0.05),然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。局限性:后续变量的引入可能会使先进入方程的变量变得不重要。第23页,共87页。243、向后剔除法(Backwardelimination)首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大,依次逐个将无显著性的自变量从回归方程中剔除。优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。第24页,共87页。254、逐步法(Stepwise):给出入选标准(通常1=0.05)和剔除标准(通常2=0.10),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。实际工作中,多采用逐步法。用上述方法对上例资料进行分析。第25页,共87页。26(六)应用多元线性回归分析时需注意的事项(1)样本量要求:无精确的计算公式。据经验,样本量应是自变量数的5~10倍以上。(2)做预报时,只能在自变量X的观察值范围内进行;(3)在资料要求上,应变量Y服从正态分布;(4)注意资料的特异点(outlier);第26页,共87页。27(5)观测值重新量化问题二项分类资料:用X表示分类变量,阴性为0,阳性为1。有序多项分类资料:用一个X作为分类变量,以自然数0,1,2,…赋值。如将病情分为轻中重三类时,用X表示病情,赋值方法为:无序多项分类资料:或第27页,共87页。28上述以职员作为对比水平(基础水平)。哑变量X1、X2、X3分别代表了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。第28页,共87页。29(7)自变量的联合作用分析若要考虑X3、X4对应变量y的联合作用,可设置一个新变量X5=X3X4。若b3、b4和b5都有统计学意义,则说明X3、X4对应变量既有单独作用,又有交互作用。(6)自变量筛选过程中引入和剔除变量时检验水准的确定1)引入变量检验的水准小于或等于剔除变量时检验的水准2)通常引入变量检验的水准为0.05,剔除变量时0.10,但不绝对。第29页,共87页。30说明X3、X4对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。第30页,共87页。31(8)自变量的共线性当自变量之间存在较强的相关关系时,称之为共线性。后果——偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:1)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。2)偏回归系数的符号与医学专业知识不一致。3)参数估计的标准误变得很大,使t值变得很小,P值很大。第31页,共87页。32判断方法:利用自变量间的相关系数阵。(r>0.9,共线性可能性大)处理方法:最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。第32页,共87页。33(9)残差分析——模型诊断通常以标准化残差(standardizedresidual)为纵坐标,以为横坐标,作残差图。第33页,共87页。34第34页,共87页。简单分析实例例1为研究男性高血压患者血压与年龄、身高、体重等变量的关系,随机测量了32名40岁以上男性的血压y、年龄x1、体重指数x2,试建立多重线性回归方程。数据文件见mreg2.sav。第35页,共87页。简单分析实例-初步分析初步分析:与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。本例有两个自变量与一个反应变量,绘制散点图矩阵,如下。第36页,共87页。绘制散点图矩阵简单分析实例-初步分析第37页,共87页。简单分析实例第38页,共87页。简单分析实例第39页,共87页。简单分析实例结果分析给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为两个变量是被强行纳入模型的(Method为Enter),当然就不存在剔除变量的事情了。第40页,共87页。简单分析实例结果分析模型拟合优度情况的检验,结果显示,复相关系数为0.840,决定系数为0.706,调整的决定系数为0.686,还输出了剩余标准差。第41页,共87页。简单分析实例结果分析回归模型的假设检验结果,显示F=34.808,P<0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。第42页,共87页。简单分析实例结果分析给出了模型的常数项以及两个自变量的偏回归系数及其检验结果,可以写出回归方程如下:Y=54.798+1.379x1+4.513x2主要结果第43页,共87页。SPSS结果中输出偏回归系数的同时,也输出了各自的标准偏回归系数。年龄的标准化偏回归系数为0.664,体重指数的标准化偏回归系数为0.247,因此,可以认为,年龄对血压的影响比体重指数对血压的影响大。简单分析实例结果分析第44页,共87页。例2仍以例1的资料为例,试作逐步回归分析。数据文件见mreg2.sav。逐步回归第45页,共87页。逐步回归第46页,共87页。逐步回归第47页,共87页。逐步回归输出SPSS在逐步回归过程中拟合的步骤中,每一步引入模型的变量情况,此处只有一个变量引入。结果分析第48页,共87页。逐步回归结果分析分别输出拟合的模型中,拟合优度情况的检验结果:复相关系数、决定系数、调整的决定系数以及剩余标准差。本例只有一步,故结果很简单,仅拟合一个模型。第49页,共87页。逐步回归结果分析给出各个拟合模型的常数项以及各自变量的偏回归系数、95%可信区间及其检验结果(此处为仅有一步的结果)。第50页,共87页。逐步回归结果分析给出拟合模型过程中被剔除的变量情况及其检验结果(此处为仅有一步)。第51页,共87页。残差分析非标准化残差(原始残差)标准化残差(Pearson残差)学生化残差剔除残差学生化剔除残差残差种类第52页,共87页。残差分析模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:年龄)第53页,共87页。残差分析模型适用条件的检验-因变量与自变量之间存在线性关系的检验(以例1为例:体重指数)第54页,共87页。残差分析模型适用条件的检验-独立性的检验通过LinearRegression过程的statistics按钮中的Durbin-Watson检验进行判断。若自变量数少于4个,统计量接近2,基本上可以肯定残差间相互独立。仍以例1为例,结果如下。第55页,共87页。残差分析模型适用条件的检验-方差齐性的检验第56页,共87页。残差分析模型适用条件的检验-正态性的检验绘制残差的直方图及PP图的复选框第57页,共87页。残差分析模型适用条件的检验-正态性的检验结果第58页,共87页。59二、Logistic回归一、概念Logistic回归是一种适用于应变量为分类值多因素概率型曲线模型。Y为二项分类:非条件Logistic回归——成组条件Logistic回归——配对设计Y为多分类:多分类Logistic回归第59页,共87页。60BinaryLogistic适用于应变量为二项分类的资料。应变量(Y)在一组自变量(X)的作用下所发生的结果赋值规则为:logistic回归模型:统计学中,把ln(P/Q)称为P的Logit转换或对数转换,即LogitP。由此得到的回归方程,称为Logistic回归方程。出现阳性的结果——1,其概率用P来表示;出现阴性的结果——0,其概率用Q或(1–P)来表示。第60页,共87页。61由上式可得:由样本估计而得的logistic回归模型:第61页,共87页。62将P/Q称为比数(odds,优势、比值);两个比数之比称为比数比OR(oddsratio,优势比、比值比)。第i个观察对象的发病概率比数(odds)为Pi/Qi,则:第l个观察对象的发病概率比数为Pl/Ql,则:第62页,共87页。63则:式中:——同一因素xj的不同暴露水平之差。bj——在其它自变量固定不变的情况下,xj的水平每增加一个单位时,ln(OR)的改变量,即所引起的比数比为增加前的ebj倍若Xj赋值为:第63页,共87页。64bj=0时,ORj=1,说明因素xj对疾病不起作用;bj>0时,ORj>1,说明xj是一个危险因素;bj<0时,ORj<1,说明xj是一个保护因素。对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P<<1,OR可作为RR的近似估计:所以,logistic回归常用于流行病学调查资料,其优点是得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。第64页,共87页。65模型的应用主要有三个方面:筛选危险因素:求出各协变量对应变量的比数比(OR);校正混杂因素:可以很方便地控制混杂因素,得到校正后比数比的估计值和置信区间;预测与判断:Logistic回归模型是概率型模型,在一定条件下能预测某事件发生的概率,或估计各种自变量组合条件下应变量的某一类结果是否发生。第65页,共87页。例1某医师希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca是否有关,数据见logistic_binary.sav。简单分析实例第66页,共87页。简单分析实例第67页,共87页。选入应变量选入自变量简单分析实例第68页,共87页。简单分析实例结果分析此表为应变量取值水平编码,SPSS默认取值水平高的为阳性结果。第69页,共87页。简单分析实例结果分析本表输出当前模型的-2log(似然值)和两个伪决定系数,但对于logistic回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。第70页,共87页。简单分析实例结果分析此表输出模型中的各自变量的偏回归系数及其标准误、Wald2、自由度、P值、OR值(即exp(B))。第71页,共87页。哑变量设置在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当x为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用哑变量(dummyvariable)方式对模型进行定义。第72页,共87页。例2Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为LOW,1表示低出生体重儿,0表示非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)哑变量设置第73页,共87页。哑变量设置第74页,共87页。哑变量设置第75页,共87页。选入无序多分类变量设置参照水平哑变量设置第76页,共87页。哑变量设置结果分析哑变量(种族)的设置情况第77页,共87页。哑变量设置白人低出生体重的风险较低,而黑人风险较高。结果分析第78页,共87页。参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于30或50例;对有序自变量的分析:从专业出发确定;分别以哑变量和连续性变量的方式引入模型进行比较后确定。哑变量设置哑变量设置应该注意的问题第79页,共87页。Forward:Conditional(最可靠)Forward:LRForward:Wald(应当慎用)Backward:Conditional(最可靠)Backward:LRBackward:Wald(应当慎用)6种筛选自变量的方法逐步回归第80页,共87页。例3仍以例2的数据为例,演示如何在SPSS中实现逐步logistic回归分析。逐步回归第81页,共87页。选择其中一种逐步法逐步回归第82页,共87页。逐步回归给出了模型拟合过程中每一步的-2log(L)及两个伪决定系数。结果分析第83页,共87页。逐步回归结果分析第84页,共87页。逐步回归结果分析输出了尚不在模型中的自变量是否能被引入的Score检验结果,这里只给出第一步的结果。第85页,共87页。86第86页,共87页。87欲研究新生儿脐带血铅浓度受环境因素影响的情况,某研究所测定了235名新生儿血铅浓度,并对产妇进行问卷调查,调查表包括了21种可能影响脐带血铅浓度的环境因素如职业、吸烟、上下班途中时间、住家是否临近马路、居室装潢情况、是否用煤做燃料、饮食等。(1)欲筛选哪些环境因素是影响新生儿脐带血铅浓度的主要因素,宜选择何种方法进行统计分析?(2)若产妇职业、吸烟情况、上下班途中时间及饮食是主要影响因素,现欲比较上述因素对血铅浓度的相对影响强度,应计算何种指标?讨论题第87页,共87页。
/
本文档为【多元线性回归回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索