为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

Logistic回归分析

2022-03-01 57页 ppt 360KB 2阅读

用户头像 个人认证

心想事成2022

暂无简介

举报
Logistic回归分析Logistic回归分析汕大医学院预防医学教研室Logisticregression:是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析(线性回归分析:应变量为连续计量资料)。如二项分类,如某种疾病的患病与否某一治疗结果有效和无效器官移植后生存或死亡多项有序分类:某一治疗结果,治愈、显效、有效、无效;多项无序分类:肝炎分型甲、乙、丙、丁、戊研究分类反应变量与多个影响因素之间的相互关系的一种多变量分析方法,进行疾病的病因分析。Logistic回归的分类Logistic回归二分类有序反应变...
Logistic回归分析
Logistic回归分析汕大医学院预防医学教研室Logisticregression:是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析(线性回归分析:应变量为连续计量资料)。如二项分类,如某种疾病的患病与否某一治疗结果有效和无效器官移植后生存或死亡多项有序分类:某一治疗结果,治愈、显效、有效、无效;多项无序分类:肝炎分型甲、乙、丙、丁、戊研究分类反应变量与多个影响因素之间的相互关系的一种多变量分析方法,进行疾病的病因分析。Logistic回归的分类Logistic回归二分类有序反应变量多分类无序反应变量非条件1:1配对资料条件Logistic回归1:m配对资料m:n配对资料Logistic回归模型是一种概率模型,通常以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。例:为了探讨糖尿病与血压、血脂等因素的关系,研究者对56例糖尿病病人和65例对照者进行病例对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的观察结果见二分类反应变量Y=1出现阳性结果0出现阴性结果对反应变量有影响的因素有n个,称为自变量X1,X2,….Xn在n个自变量作用下出现阳性结果的条件概率为P=P(Y=1(X1,X2,….Xn)一、Logistic回归方程 Logistic回归的logit模型 (1)取值问题(2)曲线关联反应变量与自变量的关系通常不是直线关系,而是S型曲线。曲线回归时,往往采用变量变化,使得曲线直线化,再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年,COX引入了用于人口学领域的Logit变换。Z-5-4-3-2-10123450.2.4.6.81P什么叫Logit变换?通常把出现某种结果的概率与不出现的概率之比称为比值Odds=P/1-P,将其纳入对数=Ln(P/1-P)概率P是以0.5为对称点,分布在0~1的范围内的,而相应的Logit(P)的大小为P=0Logit(P)=Ln(0/1)=-无穷大P=0.5Logit(P)=Ln(0.5/0.5)=0P=1Logit(P)=Ln(1/0)=+无穷大Logit(P)取值范围扩展为(-,+-)Logit变换也称对数单位转换logitP=其中,为常数项,为偏回归系数。二、参数估计建立Logistic回归方程就是求和i意义常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。i意义偏回归系数表示在其它自变量固定的条件下,第n个自变量每改变一个单位时logit的改变量。它与比数比(优势比)(oddsratio)有对应关系。1、回归系数的估计:最大似然估计法(Maximumlikehoodestimate) 最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值(使得一次抽样中获得现有样本的概率为最大),所得到的估计值称为参数的最大似然估计值。三、参数检验似然比检验(likehoodratiotest) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。G=-2(lnLp-lnLk)样本量较大时,G近似服从自由度为待检验因素个数的2分布。比分检验(scoretest) 以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。Wald检验(waldtest) 即广义的t检验,统计量为u u服从正态分布,即为正态离差。 Logistic回归系数的区间估计 上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。四、回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时,logitP的平均变化量。流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数            Odds=P/(1-P)比数比   OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR 设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势(odds),logitP就是odds的对数值。优势比常把出现某种结果的概率与不出现的概率之比称为比值(odds),即odds=p/1-p。两个比值之比称为比值比(OddsRatio),简称OR。Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummyvariable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,e(bi)表示xi增加一个等级时的优势比,e(k*bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。分析因素xi为连续性变量时,e(bi)表示xi增加一个计量单位时的优势比。多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比e(bi)的可信区间为五、Logistic回归分析方法基本思想同线性回归分析。从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。六、Logistic回归的应用危险/保健因素的筛选,并确定其作用大小。预测:预测某种情况下或者某个病例,某特定事件发生的概率。影响因素为分类变量时,用列联表形式卡方检验存在分类的混杂因素时,用Mantel-Haensze但存在局限性(1)控制混杂因素,但无法描述作用大小及方向(2)样本量要求大,单元格划分太细(3)无法对连续性自变量的影响进行分析二分类Logistic对资料的要求(1)反应变量为二分类的分类变量。(发病率等存在重复计数的指标不适用(2)误差项服从二项分布(不是正态分布),不再使用最小二乘法进行参数估计,而使用最大似然法来解决方程的估计和检验问题)(3)观察对象相互独立(4)所需样本数为自变量个数的5-10倍。分析实例分析糖尿病患者继发肿瘤与否的影响因素,采用二分类Logistic回归分析。步骤是:程序编辑窗主菜单Analyze→选Regression(回归分析)→选BinaryLogictic(两分类变量Logictic回归分析,出现LogisticRegression窗口→将是否肿瘤选入右边的 Dependent(因变量)窗口中→将sex、age、血脂、血压等均选入右边的Covariats(协变量,这里是自变量)窗口中,Forward:LR(向前逐步法:似然比法likelihood ratio,LR)→再击下方的Save钮,将Predictedvalues、Influence与Residuls窗口中的预选项全勾选 →Continue→再击下方的Options钮,将StatisticsandPlot小窗口中的选项全勾选→Continue→ OK。哑变量自变量为多分类变量,与应变量之间通常不存在线性关系,须用哑变量方式分析。若K为该变量的水平数,则系统将自动产生K-1个哑变量。Categorical子对话框用于此设置。多分类无序自变量多分类有序自变量,要求其等级分组与LogitP呈线性关系,如不满足条件,则将等级变量当作无序变量,用哑变量进行分析。SPSS中Categorical按钮实现Indicator:指标对比,参照水平注意:有实际意义;参照水平有一定频数保证。多分类Logistic分析一、有序多分类Logistic回归模型应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。如某项治疗效果分为痊愈、有效、好转、无效,可通过累积Logit模型。设反应变量的取值为1,2,3,4,相应取值水平的概率为1、2、3、4对n个自变量拟合三个模型实际是依次将反应变量按不同的取值水平分割呈两个等级,对这两个等级建立反应变量为二分类的Lgistic回归模型。常数项改变了,偏回归系数不变。OR值是自变量没改变一个单位,反应变量提高一个及一个以上等级的比数比。SPSS操作如下Analyze→选Regression(回归分析)→选Ordinal→Dependent(因变量)窗口中→Covariats(连续性变量自变量),Factor框(分类变量)-ok二、无序多分类Logistic回归模型Analyze→选Regression(回归分析)→选Multinomial→Dependent(因变量)窗口中→Covariats(连续性变量自变量),Factor框(分类变量)-OK假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。配比设计的Logistic回归模型其中不含常数项。可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。病例对照研究的类型(一)病例与对照不匹配---非条件logistic回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配---条件logistic回归匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。条件logistic回归病例与对照匹配---条件logistic回归1、成组匹配(categorymatching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individualmatching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pairmatching),1:2,┅,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。在配比研究中,研究者通常不关心层因素的作用,不需要估计层因素的参数。条件logistic回归用条件似然函数替代一般似然函数。在构造条件似然函数时考虑了层因素的影响,使在最后得到的模型中消去了反映层因素的参数,从而减少了模型中要估计的参数,降低了对样本含量的要求。1:3配对的例子Analyze→选Regression(回归分析)→选Multinomial→Dependent(因变量)窗口中→Covariats(连续性变量自变量),Factor框(分类变量)-Model:去除Includeinterceptinmodel–continue-OK
/
本文档为【Logistic回归分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索