nullLogistic 回归 Logistic 回归 李保坤老师
西南财经大学
统计学院本节内容提要本节内容提要Logistic 回归模型
关于 Odds 和 Odds Ratio
Logistic回归模型的解释
参数估计
假设检验
使用SAS的一个例子Logistic 回归模型Logistic 回归模型模型关系的一边是一系列的变量xi
二元变量 (是/否)
类别变量(社会等级,... )
连续变量(年龄, ...)
另一边是
二元变量 Y
二元输出是商业,生物学和流行病学中经常出现的情况Logistic 回归模型Logistic 回归模型
1 年龄(Age)和冠心病(CD)发病情况Logistic 回归模型Logistic 回归模型比较病人和非病人的平均年龄
非病人: 38.6 岁
病人: 58.7 岁
能不能用线形回归?表1数据的散点图表1数据的散点图冠心病症状年龄Logistic 回归模型Logistic 回归模型表2 按年龄组划分的冠心病发病情况年龄组 人数 冠心病人数 累积% 表2数据的散点图表2数据的散点图年龄组病人百分数Logistic 回归模型Logistic 回归模型x得病概率转换转换a = 非感染区疾病的概率比对数(log odds)
b = 感染区疾病的概率比对数的单位变化率
e b = 概率比变化率关于 Odds 和 Odds Ratio关于 Odds 和 Odds Ratio例子:在一个具有17个家庭的样本里,共有3家的收入为¥10000,5家的收入为¥11000,9家的收入为¥12000。在收入为¥10000的家庭里,1个主妇不工作,2个主妇工作;在收入为¥11000的家庭里,1个主妇不工作,4个主妇工作;在收入为¥12000的家庭里,1个主妇不工作,8个主妇工作。 关于 Odds 和 Odds Ratio关于 Odds 和 Odds Ratio主妇工作的Odds关于 Odds 和 Odds Ratio关于 Odds 和 Odds Ratio用收入为¥11000家庭的主妇工作的Odds除以收入为¥10000家庭的主妇工作的Odds,我们会得到4/2=2。
用收入为¥12000家庭的主妇工作的Odds除以收入为¥11000家庭的主妇工作的Odds,我们得到8/4=2。
注意:当收入增加1个单位(¥1000)工作的Odds增加到原来的2倍。Odds Ratio=2
在这个例子中,我们把收入每增加1个单位,主妇工作的Odds增加到原来的2倍。
Logistic回归模型的解释
Logistic回归模型的解释可以把结果变量Y看作一个贝努里实验,
E(Y)=π
π是每一个实验成功的概率
π的值在0和1之间
Logistic回归模型的解释Logistic回归模型的解释多元线性回归模型
不适合用于二元结果变量,因为线性回归模型假定结果变量可以取任意值,而事实上只能取0到1之间的数值. 这时我们使用Logistic回归模型
Logistic回归模型的解释Logistic回归模型的解释这个比率
被称作概率比(odds), 它是π的函数Logistic回归模型的解释Logistic回归模型的解释对于只有一个预测变量的情况:
X每增加1, odds增加eβLogistic回归模型的解释Logistic回归模型的解释Logistic回归模型的解释Logistic回归模型的解释因此, eβ是Odds Ratio
eβ =1,对应的是β =0, 它表示对应的预测变量x和结果变量y没有关系Logistic回归模型的解释Logistic回归模型的解释对于只有一个预测变量x,使用样本数据得到模型:
π的估计为参数估计参数估计线形回归: 最小二乘
Logistic回归: 极大似然估计
似然函数
估计参数 a 和 b
通常使用对数似然函数更为简单
参数估计:最大似然估计参数估计:最大似然估计null参数估计:最大似然估计参数估计:最大似然估计参数估计:最大似然估计参数估计:最大似然估计参数估计:最大似然估计牛顿 - 纳逊
,Newton-Raphson
参数估计:最大似然估计变量编码变量编码名义变量或有序变量:
烟草消费: 无=0, 灰烟=1, 棕色烟=2, 金黄烟=3
最好使用指示变量 (即虚拟变量)x1,x2,x3
如果是灰烟, x1=1,x2=0,x3=0
如果是棕色烟, x1=0,x2=1,x3=0
如果是金黄烟, x1=0,x2=0,x3=1
如果不抽烟, x1=0,x2=0,x3=0
编码可消除对吸烟变量各个类别的人为分层影响,且不需要进行任何假定
假设检验假设检验问
包括某预测变量的模型是否比不包括这一变量的模型提供结果变量的更多信息?
三种检验
似然比统计量
Wald 检验
Score 检验假设检验假设检验
检验这一假设的检验统计量是卡方统计量。常用的有3种假设检验假设检验
Wald 检验
似然比检验
Score 检验
关于模型差异的假设检验关于模型差异的假设检验比较两个嵌入模型(nested models)
Log(odds) = + 1x1 + 2x2 + 3x3 + 4x4 (模型1)
Log(odds) = + 1x1 + 2x2 (模型 2)
似然比统计量:
-2 log (模型2似然函数/模型1似然函数) =
-2 log (模型2似然函数) 减去 -2log (模型1似然函数)
似然比统计量服从2 分布,DF =模型参数个数之差
拟和优度拟和优度m=x变量的水平数,(对冠心病的例子m=5)
ni=x变量第i水平的观测记录数
K=参数的数量(对冠心病的例子k=2)
拟和优度拟和优度 对于连续型预测变量,我们需要 Hosmer-Lemshow 拟和优度检验
Hosmer-Lemshow 统计量计算拟和优度时把自变量的范围划分为10个有序组,比较每一组实际的记录数量(观测到的)以及logistic回归模型预测的记录数量(预测的)。因此检验统计量是卡方统计量,期望的结果是不显著,这表明模型预测和观测并没有显著区别。例子:冠心病数据例子:冠心病数据该数据集合包括n=100条观测记录
每一条记录写成一行,数据如下页。nullnullnullnullnullnullnullnullnull