为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

SPSS(4)相关分析

2017-10-13 40页 doc 407KB 35阅读

用户头像

is_769254

暂无简介

举报
SPSS(4)相关分析SPSS(4)相关分析 第七章 相关分析 任何事物的存在都不是孤立的,而是相互联系、相互制约的。在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。 值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之间有因果关系,则两者必然相关。 SPSS的相关分析是借助于Statistics菜单的Correlate选项完成的。 第一节 Bivariate过程 7.1.1 主要功能 调用此过程可对变量进行相关...
SPSS(4)相关分析
SPSS(4)相关 第七章 相关分析 任何事物的存在都不是孤立的,而是相互联系、相互制约的。在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。 值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之间有因果关系,则两者必然相关。 SPSS的相关分析是借助于Statistics菜单的Correlate选项完成的。 第一节 Bivariate过程 7.1.1 主要功能 调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是 变量间两两相关的相关系数。 7.1.2 实例操作 [例7-1]某地区10名健康儿童头发和全血中的硒含量(1000ppm)如下,试作发硒与血 硒的相关分析。 编号 发硒 血硒 1 74 13 2 66 10 3 88 13 4 69 11 5 91 16 6 73 9 7 66 7 8 96 14 9 58 5 10 73 10 7.1.2.1 数据准备 激活数据管理窗口,定义变量名:发硒为X,血硒为Y,按顺序输入相应数值,建立数据库(图7.1)。 1 图7.1 原始数据的输入 7.1.2.2 统计分析 激活Statistics菜单选Correlate中的Bivariate...命令项,弹出Bivariate Correlation对话框(图7.2)。在对话框左侧的变量列表中选x、y,点击钮使之进入Variables框;再在, Correlation Coefficients框中选择相关系数的类型,共有三种:Pearson为通常所指的相关系数(r),Kendell’s tau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项;在Test of Significance框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。 图7.2 相关分析对话框 点击Options...钮弹出Bivariate Correlation:Options对话框(图7.3),可选有关统计项目。本例要求输出X、Y的均数与差以及XY交叉乘积的标准差与协方差,故选Means and 2 standard deviations和Cross-product deviations and covariances项,而后点击Continue钮返回Bivariate Correlation对话框,再点击OK钮即可。 图7.3 相关分析统计对话框 7.1.2.3 结果解释: 在结果输出窗口中将看到如下统计数据:变量X、Y的例数、均数与标准差,变量X、Y交叉乘积的例数、标准差与协方差;XY两两对应的相关系数及其双侧检验的概率,本例r = 0.8715,P = 0.001。 Variable Cases Mean Std Dev X 10 75.4000 12.2945 Y 10 10.8000 3.3267 Variables Cases Cross-Prod Dev Variance-Covar X Y 10 320.8000 35.6444 X Y X 1.0000 .8715 ( 10) ( 10) P= . P= .001 Y .8715 1.0000 ( 10) ( 10) P= .001 P= . (Coefficient / (Cases) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 3 第二节 Partial过程 7.2.1 主要功能 调用此过程可对变量进行偏相关分析。在偏相关分析中,系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数。 7.2.2 实例操作 [例7-2]某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表, 试对该资料作控制体重影响作用的身高与肺活量相关分析。 编号 身高(cm) 体重肺活量编号 身高(cm) 体重肺活量 (kg) (ml) (kg) (ml) 1 135.1 32.0 1750 16 153.0 47.2 1750 2 139.9 30.4 2000 17 147.6 40.5 2000 3 163.6 46.2 2750 18 157.5 43.3 2250 4 146.5 33.5 2500 19 155.1 44.7 2750 5 156.2 37.1 2750 20 160.5 37.5 2000 6 156.4 35.5 2000 21 143.0 31.5 1750 7 167.8 41.5 2750 22 149.4 33.9 2250 8 149.7 31.0 1500 23 160.8 40.4 2750 9 145.0 33.0 2500 24 159.0 38.5 2500 10 148.5 37.2 2250 25 158.2 37.5 2000 11 165.5 49.5 3000 26 150.0 36.0 1750 12 135.0 27.6 1250 27 144.5 34.7 2250 13 153.3 41.0 2750 28 154.6 39.5 2500 14 152.0 32.0 1750 29 156.5 32.0 1750 15 160.5 47.2 2250 7.2.2.1 数据准备 激活数据管理窗口,定义变量名:身高为height,体重为weight,肺活量为vc,按顺序输入相应数值,建立数据库。 7.2.2.2 统计分析 激活Statistics菜单选Correlate中的Partial...命令项,弹出Partial Correlations对话框(图7.4)。现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变量列表中选变量height、vc,点击钮使之进入Variables框,选要控制的变量weight,点, 击钮使之进入Controlling for框中, 在Test of Significance框中选双侧检验,然后点击OK, 钮即可。 4 图7.4 偏相关分析对话框 7.2.2.3 结果解释 在结果输出窗口中将看到如下统计数据:控制体重的影响后,身高与肺活量的相关系数为0.0926,经检验P = 0.639,故身高与肺活量的线性相关不存在。(如果不控制体重的影响,则身高与肺活量的相关系数为0.5884,P为0.001。在有控制的情况下,身高与肺活量的决22定系数 = r = 0.00857,而无控制的身高与肺活量决定系数 = r = 0.34621,可见身高与肺活量的相关有33.764%是由体重协同作用而产生的。) Controlling for.. WEIGHT HEIGHT VC HEIGHT 1.0000 .0926 ( 0) ( 26) P= . P= .639 VC .0926 1.0000 ( 26) ( 0) P= .639 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为0.5528,经检验P = 0.002,故体重与肺活量的线性相关存在。可见,尽管肺活量与身高和体重均有关系,但如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大。 Controlling for.. HEIGHT 5 VC WEIGHT VC 1.0000 .5528 ( 0) ( 26) P= . P= .002 WEIGHT .5528 1.0000 ( 26) ( 0) P= .002 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 第三节 Distances过程 7.3.1 主要功能 调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近 程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合程度。7.3.2 实例操作 [例7-3]某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否一致, 样品1 2 3 4 5 6 7 8 9 10 号 第一12.36 12.14 12.31 12.32 12.12 12.28 12.24 12.41 12.33 12.17 次 12.40 12.20 12.28 12.25 12.22 12.34 12.31 12.30 12.22 12.24 第二12.18 12.22 12.35 12.21 12.10 12.25 12.20 12.46 12.36 12.11 次 第三 次 7.3.2.1 数据准备 激活数据管理窗口,定义变量名:第一次测量值为HB1,第二次测量值为HB2,第三次测量值为HB3,输入相应数值即完成。 6 7.3.2.2 统计分析 激活Statistics菜单选Correlate中的Distance...命令项,弹出Distance对话框(图7.5)。在对话框左侧的变量列表中选变量hb1、hb2、hb3,点击钮使之进入Variables框。在Compute , Distances框中有两个选项,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析,在本例中,因三次平行测量结果分别置于三个变量中,故选择后者。 图7.5 距离相关分析对话框 在Measure栏中有两种测距方式:Dissimilarities为不相似性测距,Similarities为相似性测距。若选Dissimilarties并点击Measure...钮,弹出Distance:Dissimilarity Measure对话框(图7.6),用户可根据数据特征选用测距: 图7.6 距离相关中不相似性距离测量对话框 1、计量资料 7 Euclidean distance:以两变量差值平方和的平方根为距离; Squared Euclidean distance:以两变量差值平方和为距离; Chebychev:以两变量绝对差值的最大值为距离; Block:以两变量绝对差值之和为距离; Minkowski:以两变量绝对差值p次幂之和的p次根为距离; Customized:以两变量绝对差值p次幂之和的r次根为距离。 2、计数资料 2 Chi-square measure:χ值测距; 22 Phi-square measure:ψ值测距,即将χ测距值除合计频数的平方根。 3、二分字符变量 Euclidean distance:二分差平方和的平方根,最小为0,最大无限; Squared Euclidean distance:二分差平方和,最小为0,最大无限; Size difference:最小距离为0,最大无限; Pattern difference:从0至1的无级测距; Variance:以方差为距,最小为0,最大无限; Lance and Williams:Bray-Curtis非等距系数,界于0至1之间。 若选Similarties并点击Measure...钮,弹出Distance: Similarity Measure对话框(图7.7), 用户可根据数据特征选用测距方法: 图7.7 距离相关中相似性距离测量对话框 1、计量资料 Pearson correlation:以Pearson相关系数为距离; Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。 2、二分字符变量 Russell and Rao:以二分点乘积为配对系数; Simple matching:以配对数与总对数的比例为配对系数; Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重; Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数, 非配对数给予加倍的权重; 8 Sokal and Sneath 1:Sokal and Sneath ?型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重; Sokal and Sneath 2:Sokal and Sneath ?型配对系数,分子与分母均为非配对数,但分子给予加倍的权重; Sokal and Sneath 3:Sokal and Sneath ?型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同; Kulczynski 1:Kulczynski ?型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同; Kulczynski 2:Kulczynski平均条件概率; Sokal and Sneath 4:Sokal and Sneath 条件概率; Hamann:Hamann概率; Lambda:Goodman-Kruskai相似测量的λ值; Anderberg's D:以一个变量状态预测另一个变量状态; Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数; Yule's Q:Goodman-Kruskal γ值,属于2×2四格表的列联比例函数。 3、其他型变量 Ochiai:Ochiai二分余弦测量; Sokal and Sneath 5:Sokal and Sneath ?型相似测量; Phi 4 point correlation:Pearson相关系数的平方值; Dispersion:Dispersion相似测量。 同时,还可以选择数据转换形式: None:不作数据转换; Z-Scores:作标准Z分值转换; Range -1 to 1:作-1至+1之间的标准化转换; Range 0 to 1:作0至1之间的标准化转换; Maximum magnitude of 1:作最大量值1的标准转换; Mean of 1:作均数单位转换; Standard deviation of 1:作标准差单位转换。 本例选Similarties项,并以Pearson correlation为测量距离。点击Continue钮返回Distance对话框,再点击OK钮即可。 7.3.2.3 结果解释 在结果输出窗口可看到三次测量结果的相关系数矩阵。第一次测量与第二次测量结果的r = 0.5734,第一次测量与第三次测量结果的r = 0.7309,第二次测量与第三次测量结果的r = 0.0878,由此可见,后两次测量的结果一致性较差,这意味着第一次恰好是后两次的“均值”,故对该指标作重复测量意义不大。 Data Information 10 unweighted cases accepted. 0 cases rejected because of missing value. Correlation measure used. 9 Correlation Similarity Coefficient Matrix Variable HB1 HB2 HB2 .5734 HB3 .7309 .0878 如果对变量内部各观察值间的一致性进行考核(假定本例HB1变量中的数据为对一个 标准试样的十次平行测定),那么需在Distance对话框中选Between cases项,并选Dissimilarities项的Euclidean distance测距方法,运算结果如下: 在不相似性测量系数矩阵中,最大值为第五个观察值与第八个观察值间的仅为0.2900, 其余的值均较之更小,最小的为第三个观察值与第四个观察值间的仅为0.0100,可见观察值间的不相似性差(不相似性系数愈接近1,不相似性愈好;不相似性系数愈接近0,不相似性愈差),则意味着测定结果的一致性好。 Data Information 10 unweighted cases accepted. 0 cases rejected because of missing value. Euclidean measure used. Euclidean Dissimilarity Coefficient Matrix Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 Case 7 Case 8 Case 9 Case 2 .2200 Case 3 .0500 .1700 Case 4 .0400 .1800 .0100 Case 5 .2400 .0200 .1900 .2000 Case 6 .0800 .1400 .0300 .0400 .1600 Case 7 .1200 .1000 .0700 .0800 .1200 .0400 Case 8 .0500 .2700 .1000 .0900 .2900 .1300 .1700 Case 9 .0300 .1900 .0200 .0100 .2100 .0500 .0900 .0800 Case10 .1900 .0300 .1400 .1500 .0500 .1100 .0700 .2400 .1600 第八章 回归分析 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。 10 第一节 Linear过程 8.1.1 主要功能 调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。 8.1.2 实例操作 2 ,例8.1,某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。 儿童编号 体表面积(Y) 身高(X) 体重(X) 12 1 5.382 88.0 11.0 2 5.299 87.6 11.8 3 5.358 88.5 12.0 4 5.292 89.0 12.3 5 5.602 87.7 13.1 6 6.014 89.5 13.7 7 5.830 88.8 14.4 8 6.102 90.4 14.9 9 6.075 90.6 15.2 10 6.411 91.2 16.0 8.1.2.1 数据准备 激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。 11 图8.1 原始数据的输入 8.1.2.2 统计分析 激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框(如图8.2示)。从对话框左侧的变量列表中选y,点击,钮使之进入Dependent框,选x1、x2,点击,钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法。点击OK钮即完成分析。 图8.2 线性回归分析对话框 用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。 8.1.2.3 结果解释 12 在结果输出窗口中将看到如下统计数据: * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing Data Equation Number 1 Dependent Variable.. Y Block Number 1. Method: Enter X1 X2 Variable(s) Entered on Step Number 1.. X2 2.. X1 Multiple R .94964 R Square .90181 Adjusted R Square .87376 Standard Error .14335 Analysis of Variance DF Sum of Squares Mean Square Regression 2 1.32104 .66052 Residual 7 .14384 .02055 F = 32.14499 Signif F = .0003 ------------------ Variables in the Equation ------------------ Variable B SE B Beta T Sig T X1 .068701 .074768 .215256 .919 .3887 X2 .183756 .056816 .757660 3.234 .0144 (Constant) -2.856476 6.017776 -.475 .6495 End Block Number 1 All requested variables entered. 结果显示,本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。回 2归方程的复相关系数为0.94964,决定系数(即r)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。 本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3。 13 图8.3 计算结果的保存 本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart Carousel 窗口,双击该窗口可见下图显示结果。 Histogram Dependent Variable: Y3.5 3.0 2.5 2.0 1.5 1.0 Std. Dev = .88 .5Mean = 0.00N = 10.000.0Frequency-1.50-1.00-.500.00.501.001.50 Regression Standardized Residual 图8.4 对标准化Y预测值所作的正态分布图 第二节 Curve Estimation过程 8.2.1 主要功能 调用此过程可完成下列有关曲线拟合的功能: 1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y = b+ bX); 01 14 2 2、Quadratic:拟合二次方程(Y = b+ bX+bX); 012 X 3、Compound:拟合复合曲线模型(Y = bb); 0×1 (b0+b1X) 4、Growth:拟合等比级数曲线模型(Y = e); 5、Logarithmic:拟合对数方程(Y = b+blnX) 01 23 6、Cubic:拟合三次方程(Y = b+ bX+bX+bX); 0123 (b0+b1/X) 7、S:拟合S形曲线(Y = e); b1X 8、Exponential:拟合指数方程(Y = b e); 0 9、Inverse:数据按Y = b+b/X进行变换; 01 b1 10、Power:拟合乘幂曲线模型(Y = bX); 0 X 11、Logistic:拟合Logistic曲线模型(Y = 1/(1/u + bb)。 0×1 8.2.2 实例操作 [例8.2]某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线。 年龄(岁) 锡克试验阴性率(%) X Y 1 57.1 2 76.0 3 90.9 4 93.0 5 96.7 6 95.6 7 96.2 8.2.2.1 数据准备 激活数据管理窗口,定义变量名:锡克试验阴性率为Y,年龄为X,输入原始数据。 8.2.2.2 统计分析 激活Statistics菜单选Regression中的Curve Estimation...项,弹出Curve Estimation对话框(如图8.5示)。从对话框左侧的变量列表中选y,点击,钮使之进入Dependent框,选x,点击,钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择 15 Logarithmic模型(即对数曲线);选Plot models项要求绘制曲线拟合图;点击Save...钮,弹出Curve Estimation:Save对话框,选择Predicted value项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回Curve Estimation对话框,再点击OK钮即可。 图8.5 曲线拟合对话框 8.2.2.3 结果解释 在结果输出窗口中将看到如下统计数据: ndependent: X Dependent Mth Rsq d.f. F Sigf b0 b1 Y LOG .913 5 52.32 .001 61.3259 20.6704 2 在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。 本例要求绘制曲线拟合图,结果如图8.6所示。 16 Y 110 100 90 80 70 60Observed Logarithmic50012345678 X 图8.6 对数曲线拟合情形 根据方程Y=61.3259+20.6704lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7。 图8.7 计算结果的保存 第三节 Logistic过程 8.3.1 主要功能 调用此过程可完成Logistic回归的运算。所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归 17 来完成。 特别指出,本节介绍的Logistic过程,应与日常所说的Logistic曲线模型(即S或倒S形曲线)相区别。用户如果要拟合Logistic曲线模型,可调用本章第二节Curve Estimation 过程,系统提供11种曲线模型,其中含有Logistic曲线模型(参见上节)。 在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2+…+bkXk, 但用该方程计算时,常会出现P>1或P<0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为: b0+b1X1+b2X2+…+bkXk e P = ——————————— b0+b1X1+b2X2+…+bkXk 1+ e 8.3.2 实例操作 [例8.3]某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。 术后感年龄 手术创伤程营养状术前预防性白细胞数 癌肿病理分染 (岁) 度 态 抗菌 度 9(×10/L) (有无) X1 (5等级) (3等(有无) (TNM得分总Y X2 级) X4 X5 和) X3 X6 有 69 4 2 无 5.6 9 有 72 5 3 无 4.4 6 无 57 3 2 无 9.7 4 无 41 1 1 有 11.2 5 无 32 1 1 有 10.4 5 有 65 3 3 有 7.0 5 无 58 3 2 有 3.1 6 有 54 4 2 无 6.6 6 有 55 2 2 有 7.9 7 无 59 1 1 有 6.0 4 无 64 2 2 无 9.1 6 无 36 1 1 有 8.4 8 无 42 3 1 有 5.3 6 无 48 4 2 有 4.6 5 无 50 1 2 有 12.8 4 8.3.2.1 数据准备 激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。按要求输入原始数据。 8.3.2.2 统计分析 18 激活Statistics菜单选Regression中的Logistic...项,弹出Logistic Regression对话框(如图8.8示)。从对话框左侧的变量列表中选y,点击,钮使之进入Dependent框,选x1、x2、 x4、x5和x6,点击,钮使之进入Covariates框;点击Method处的下拉按钮,系统提x3、 供7种方法: 图8.8 逻辑回归对话框 1、Enter:所有自变量强制进入回归方程; 2、Forward: Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量; 3、Forward: LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量; 4、Forward: Wald:作Wald概率统计法,向前逐步选择自变量; 5、Backward: Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量; 6、Backward: LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量; ald概率统计法,向后逐步选择自变量。 7、Backward: Wald:作W 本例选用Forward: Conditional法,以便选择有主要作用的影响因素;点击Options...钮,弹出Logistic Regression:Options对话框,在Display框中选取At last step项,要求只显示最终计算结果,点击Continue钮返回Logistic Regression对话框,再点击OK钮即可。 8.3.2.3 结果解释 在结果输出窗口中将看到如下统计数据: Dependent Variable Encoding: Original Internal Value Value y 0 n 1 Parameter Value Freq Coding (1) 19 X4 n 5 1.000 y 10 -1.000 系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X) 的赋值为1;对于应变量X4,回答是(Y)的赋值为-1,回答否(X)的赋值为1。 Dependent Variable.. Y Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 19.095425 * Constant is included in the model. Beginning Block Number 1. Method: Forward Stepwise (COND) Improv. Model Correct Step Chi-Sq. df sig Chi-Sq. df sig Class % Variable 1 8.510 1 .004 8.510 1 .004 80.00 IN: X3 2 6.766 1 .009 15.276 2 .000 93.33 IN: X6 No more variables can be deleted or added. End Block Number 1 PIN = .0500 Limits reached. Final Equation for Block 1 Estimation terminated at iteration number 12 because Log Likelihood decreased by less than .01 percent. -2 Log Likelihood 3.819 Goodness of Fit 3.000 Chi-Square df Significance Model Chi-Square 15.276 2 .0005 Improvement 6.766 1 .0093 Classification Table for Y Predicted y n Percent Correct y | n Observed +———+———+ y y | 4 | 1 | 80.00% +———+———+ n n | 0 | 10 | 100.00% +———+———+ Overall 93.33% ---------------------- Variables in the Equation ----------------------- 20 Variable B S.E. Wald df Sig R Exp(B) X3 -30.5171 298.0526 .0105 1 .9184 .0000 .0000 X6 -10.2797 107.9559 .0091 1 .9241 .0000 .0000 Constant 123.4053 1155.1065 .0114 1 .9149 结果表明,第一步自变量X3入选,方程分类能力达80.00%;第二步自变量X6入选, 22方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经χ检验,χ=15.276,P=0.0005。 Logistic回归的分类概率方程为: 123.4053-30.5171X3-10.2797X6 e P = —————————————— 123.4053-30.5171X3-10.2797X6 1+ e 根据该方程,若一胃癌患者营养状态(X3)为3,癌肿病理分度(X6)为9,则其 -27P=4.5×10?0,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(X3)为1,癌肿病理分度(X6)为4,则其P=0.98105?1,这意味着术后将不会发生院内感染。 第四节 Probit过程 8.4.1 主要功能 调用此过程可完成剂量-效应关系的分析。通过概率单位使剂量-效应的S型曲线关系转化成直线,从而利用回归方程推算各效应水平的相应剂量值。 8.4.2 实例操作 [例8.4]研究抗疟药环氯胍对小白鼠的毒性,试验结果如下表所示。试计算环氯胍的半数致死剂量。 剂量(mg/kg) 动物数 死亡数 12 5 5 9 7 6 7 19 11 6 34 17 5 38 12 4 12 2 3 5 0 8.4.2.1 数据准备 激活数据管理窗口,定义变量名:剂量为DOSE、试验动物数为OBSERVE、死亡动物数为DEATH。然后输入原始数据。 21 8.4.2.2 统计分析 激活Statistics菜单选Regression中的Probit...项,弹出Probit Analysis对话框(如图8.9示)。从对话框左侧的变量列表中选death,点击,钮使之进入Response Frequency框;选observe,点击,钮使之进入Total Observed框;选dose,点击,钮使之进入Covariate(s)框,并下拉Transform菜单,选Log base 10项(即要求对剂量进行以10为底的对数转换)。 图8.9 剂量-效应关系分析对话框 系统在Model栏中提供两种模型,一是概率单位模型(Probit),另一是比数比自然对数模型(Logit)。本例选用概率单位模型。 点击Options...钮,弹出Probit Analysis:Options对话框,在Natural Response Rate栏选Calculate from data项,要求计算各剂量组的实际反应率。之后点击Continue钮返回Probit Analysis对话框,再点击OK钮即可。 8.4.2.3 结果解释 在结果输出窗口中将看到如下统计数据: 系统首先显示,共有7组原始数据采概率单位模型进行分析。回归方程的各参数在经过 214次叠代运算后确定,即PROBIT = 5.95215 - 4.66313X 。该方程拟合优度χ检验结果,2 χ= 0.833,P=0.934,拟合良好。 DATA Information 7 unweighted cases accepted. 0 cases rejected because of missing data. 0 cases are in the control group. 0 cases rejected because LOG-transform can't be done. MODEL Information ONLY Normal Sigmoid is requested. 22 Natural Response rate to be estimated CONTROL group is not provided. Parameter estimates converged after 14 iterations. Optimal solution found. Parameter Estimates (PROBIT model: (PROBIT(p)) = Intercept + BX): Regression Coeff. Standard Error Coeff./S.E. DOSE 5.95215 2.39832 2.48180 Intercept Standard Error Intercept/S.E. -4.66313 2.19942 -2.12017 Estimate of Natural Response Rate = .000000 with S.E. = .26448 Pearson Goodness-of-Fit Chi Square = .833 DF = 4 P = .934 Since Goodness-of-Fit Chi square is NOT significant, no heterogeneity factor is used in the calculation of confidence limits. Covariance(below) and Correlation(above) Matrices of Parameter Estimates DOSE NAT RESP DOSE 5.75192 .82927 NAT RESP .52601 .06995 接着,系统显示剂量对数值(DOSE)、实际观察例数(Number of Subjects)、试验动物反应数(Observed Responses)、预期反应数(Expected Responses)、残差( Residual)和效应的概率(Prob)。之后,显示各效应概率水平的剂量值及其95%可信区间值,按本例要求,环氯胍的半数致死剂量(即Prob = 0.50时)为6.07347,其95%可信区间为1.86305—7.54282。 Observed and Expected Frequencies Number of Observed Expected DOSE Subjects Responses Responses Residual Prob 1.08 5.0 5.0 4.804 .196 .96082 .95 7.0 6.0 5.917 .083 .84534 .85 19.0 11.0 12.221 -1.221 .64320 .78 34.0 17.0 16.573 .427 .48745 .70 38.0 12.0 11.688 .312 .30757 .60 12.0 2.0 1.682 .318 .14016 23 .48 5.0 .0 .171 -.171 .03413 Confidence Limits for Effective DOSE 95% Confidence Limits Prob DOSE Lower Upper .01 2.46942 .02752 4.27407 .02 2.74406 .04534 4.54351 .03 2.93394 .06223 4.72430 .04 3.08539 .07895 4.86574 .05 3.21433 .09580 4.98445 .06 3.32832 .11294 5.08821 .07 3.43158 .13047 5.18134 .08 3.52676 .14845 5.26651 .09 3.61561 .16694 5.34550 .10 3.69937 .18597 5.41954 .15 4.06733 .29060 5.74092 .20 4.38570 .41395 6.01572 .25 4.67862 .56021 6.26792 .30 4.95831 .73436 6.51010 .35 5.23239 .94261 6.75084 .40 5.50646 1.19286 6.99754 .45 5.78528 1.49529 7.25814 .50 6.07347 1.86305 7.54282 .55 6.37600 2.31299 7.86673 .60 6.69886 2.86587 8.25522 .65 7.04974 3.54438 8.75565 .70 7.43943 4.36394 9.46545 .75 7.88416 5.30688 10.59748 .80 8.41075 6.29069 12.60617 .85 9.06910 7.21514 16.40564 .90 9.97116 8.09412 24.20725 .91 10.20216 8.27760 26.73478 .92 10.45919 8.46892 29.82525 .93 10.74928 8.67177 33.68627 .94 11.08278 8.89128 38.64769 .95 11.47580 9.13511 45.27000 .96 11.95538 9.41572 54.59759 .97 12.57252 9.75590 68.85554 .98 13.44250 10.20577 93.92908 .99 14.93751 10.92195 153.73112 最后,系统输出以剂量对数值为自变量X、以概率单位为应变量Y的回归直线散点图, 24 从图中各点的分布状态亦可看出,回归直线的拟合程度是很好的。 Probit Transformed Responses 1.5 1.0 .5 0.0 -.5 -1.0Probit.5.6.7.8.91.0 Log of DOSE 图8.10 剂量-效应关系回归直线散点图 第五节 Nonlinear过程 8.5.1 主要功能 调用此过程可完成非线性回归的运算。所谓非线性回归,即为曲线型的回归分析,一些曲线模型我们已在本章第二节中述及。但在医学研究中经,还经常会遇到除本章第二节中述及的曲线模型,对此,SPSS提供Nonlinear过程让用户根据实际需要,建立各种曲线模型以用于研究变量间的相互关系。在医学中,如细菌繁殖与培养时间关系的研究即可借助Nonlinear过程完成。 下面一些曲线模型是在论文中较常见的,提供给用户应用时作参考: 模型名称 模型表达式 XAsympt. Regression 1 Y = b1 + b2×exp( b3 ) XAsympt. Regression 2 Y = b1 -( b2 × ( b3 )) (-1/ b3 )Density Y = ( b1 + b2 ×X ) 2Gauss Y = b1× (1- b3×exp( -b2 ×X )) Gompertz Y = b1×exp( -b2 ×exp( -b3 ×X )) Johnson-Schumacher Y = b1×exp( -b2 / ( X + b3)) b2Log Modified Y = ( b1 + b3×X ) Log-Logistic Y = b1 -ln(1+ b2 ×exp( -b3×X )) Metcherlich Law of Dim. Ret. Y = b1 + b2×exp( -b3×X ) Michaelis Menten Y = b1×X /( X + b2 ) b4b4Morgan-Mercer-Florin Y = ( b1×b2 + b3×X )/( b2 + X ) 23 Peal-Reed Y = b1 /(1+ b2 ×exp(-( b3×X + b4×X + b5×X ))) 25 2 3 3 Ratio of Cubics Y = ( b1 + b2×X + b3×X + b4×X )/( b5×X ) 2 2 Ratio of Quadratics Y = ( b1 + b2×X + b3×X)/( b4×X ) (1/ b4 ) exp(- b2×X ))) Richards Y = b1 /((1+ b3× Verhulst Y = b1 /(1 + b3×exp(- b2×X )) (1 - b4 )(1/(1 - b4 )Von Bertalanffy Y = ( b1 - b2×exp( -b3×X )) ) b4Weibull Y = b1 - b2×exp(- b3×X ) 2 (-1)Yield Density Y = (b1 + b2×X + b3×X ) 8.5.2 实例操作 [例8.5]选取某地某年寿命表中40-80岁各年龄组的尚存人数资料如下表,请就该资料试 (b3)X拟合Gompertz曲线(Y = b1×b2)。 年龄组(岁) 年龄简化值(X) 尚存人数(Y) 40 0 81277 45 1 79258 50 2 76532 55 3 72850 60 4 67568 65 5 59911 70 6 50800 75 7 39325 80 8 28074 8.5.2.1 数据准备 激活数据管理窗口,定义变量名:年龄简化值为X,尚存人数为Y。输入原始数据。 8.5.2.2 统计分析 激活Statistics菜单选Regression中的Nonlinear...项,弹出Nonlinear Regression对话框(如图8.11示)。从对话框左侧的变量列表中选y,点击,钮使之进入Dependent框。由于SPSS系统尚无法智能地自动拟合用户所需的曲线,故一方面要求用户估计方程中常数项和各系数项进行叠代运算的起始值,另一方面要求用户列出方程模型。对此,可首先点击Nonlinear Regression对话框的Parameters...钮,弹出Nonlinear Regression: Parameters对话框(图8.12),在Name处定义系数名,在Start Value处输入起始值(这项工作是十分重要的,否则系统可能无法运算,甚至会因叠代次数过大导致SPSS系统的崩溃),本例定义b1=8500、b2=1、b3=1.5,每定义一个系数,即点击Add钮加以确定;若在后面的运算中出错,则还可修改系数项的起始值,修改后点击Change钮加以确定;然后点击Continue钮返回Nonlinear Regression对话框。在Model Expression处写出曲线方程表达式,用户可借助系统提供的数码盘和函数列表写出方程。本例要求计算根据回归方程求出的预测值,可点击Save钮,在Nonlinear Regression:Save New Variables对话框中选Predicted value项。最后点击OK钮即可。 26 图8.11 非线性回归对话框 图8.12 系数项定义对话框 8.5.2.3 结果解释 在结果输出窗口中将看到如下统计数据: Iteration Residual SS B1 B2 B3 1 28327193463 8500.00000 1.00000000 1.50000000 1.1 14333434800 80175.3427 .739240551 1.50000000 2 14333434800 80175.3427 .739240551 1.50000000 2.1 3.8505E+11 194572.013 .006502086 -.21629077 2.2 800135019.6 83185.8046 .842994797 1.19852430 3 800135019.6 83185.8046 .842994797 1.19852430 3.1 12857378788 81201.8322 1.01579267 1.42927791 3.2 550558275.1 85774.2528 .850493197 1.21433127 4 550558275.1 85774.2528 .850493197 1.21433127 27 4.1 205793117.6 90637.3496 .859429212 1.25276932 5 205793117.6 90637.3496 .859429212 1.25276932 5.1 49937888.65 92251.6832 .905992700 1.33942536 6 49937888.65 92251.6832 .905992700 1.33942536 6.1 438492814.3 83503.5809 .966421043 1.46365602 6.2 14165723.65 91420.4568 .909112694 1.36083115 7 14165723.65 91420.4568 .909112694 1.36083115 7.1 8227661.248 89440.0706 .923463315 1.38898940 8 8227661.248 89440.0706 .923463315 1.38898940 8.1 17416856.86 85916.5498 .948299986 1.45005498 8.2 4600297.866 88467.6768 .930296397 1.40797724 9 4600297.866 88467.6768 .930296397 1.40797724 9.1 2761649.685 86538.9357 .943736707 1.44419408 10 2761649.685 86538.9357 .943736707 1.44419408 10.1 644830.0765 85633.9620 .949714917 1.46896660 11 644830.0765 85633.9620 .949714917 1.46896660 11.1 475140.3684 85680.9561 .949325567 1.46898044 12 475140.3684 85680.9561 .949325567 1.46898044 12.1 475135.4265 85679.2273 .949338713 1.46903683 13 475135.4265 85679.2273 .949338713 1.46903683 13.1 475135.4262 85679.2477 .949338590 1.46903640 Run stopped after 30 model evaluations and 13 derivative evaluations. Iterations have been stopped because the relative reduction between successive residual sums of squares is at most SSCON = 1.000E-08 Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 3 37121583327.6 12373861109.2 Residual 6 475135.42624 79189.23771 Uncorrected Total 9 37122058463.0 (Corrected Total) 8 2823635793.56 R squared = 1 - Residual SS / Corrected SS =.99983 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B1 85679.247671 383.76368720 84740.211757 86618.283585 B2 .949338590 .002336270 .943621944 .955055236 B3 1.469036403 .008908976 1.447236923 1.490835883 Asymptotic Correlation Matrix of the Parameter Estimates 28 B1 B2 B3 B1 1.0000 -.9245 -.8880 B2 -.9245 1.0000 .9902 B3 -.8880 .9902 1.0000 -8 经30次叠代运算后,相邻两次的方程剩余均方差值不大于规定的1×10,满足要求; 2回归方程的决定系数R = 0.99983,Gompertz曲线方程为: (1.469036403)X Y = 85679.247671×0.94933859 本例要求计算预测值,系统将结果存入原始数据库中(图8.13),系统以pred_作为预测值的变量名。由结果可见,预测值与实际值十分接近。 图8.13 原始数据及其预测值 29
/
本文档为【SPSS&#40;4&#41;相关分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索