完全随机
、配对设计、随机区组设计、交叉设计、拉丁方
数据
的策略
在研究设计思路指导下进行医学科学研究,研究结果常常以数据形式呈现,这些数据提供了丰富的信息。然而,如何从大量的看似杂乱无章的数据中萃取和提炼有用的信息,以揭示其中隐含的内在规律,帮助研究者进行判断或推理,还需要对这些纷繁复杂的数据进行分析。数据分析是分析和处理变量间关系的理论与方法,所涉及变量常被分为解释变量和反应变量,解释变量又称分组变量、协变量等,反应变量是表示试验效应的变量或指标。变量的观测值构成数据或资料,常有计量资料、计数资料和等级资料之分。
数据分析指的是对数据进行统计分析,就是根据抽样研究的方法,利用概率论与数理统计的原理,对样本信息进行分析和研究,从而对所研究的事物的统计规律性作出概率性的估计和推断。具体内容包括数据的变量变换、统计量的选择策略、
估计与假设检验方法应用策略。
第一部分 数据的变量变换策略
许多统计分析方法对数据有一定要求,如检验、检验,要求Ft
样本独立地来自正态总体,方差齐同;又如直线回归分析要求自变量与应变量呈线性关系,每个对应 的总体为正态分布,各XYXY
个正态分布的总体方差相等,各次观测彼此独立。然而,仍有大量的医学资料往往不满足上述要求,在分析过程中对资料进行变量变
1
换(transformation of variable)是解决问题的途径之一。恰当的数据变换可以一定程度上使资料满足统计分析方法的要求,如使资料符合正态化、方差齐同化、曲线直线化等要求。常用的变量变换方法有对数变换(transformation of logarithm)、平方根变换(transformation of square root)、平方根反正弦变换(transformation of inverse sine)、倒数变换(transformation of
reciprocal)、概率单位变换(transformation of probability unit)、logit变换 (transformation of logit)、反双曲正切变换(transformation
of inverse hyperbolic tangent)、得分变换(transformation of score)、box-cox变换(transformation of box-cox)等。
第二节 统计量的选择策略
一、概念
统计量(statistic)是由样本观测值计算出来的,反映样本分布特征的指标。对反应变量特征的描述中,计量资料有集中趋势指标与离散程度指标,计数资料与等级资料有相对数指标;对于解释变量和反应变量间关系的描述,有互依关系指标、依存关系指标等。如何从众多统计量中选择适宜的统计量描述样本分布特征是至关重要的。
二、选择统计量的策略
数据分析涉及众多统计量,基于分析目的,通常依据资料类型、资料特征、解释变量和反应变量个数等来选择适宜的统计量。
表9-1 计量资料常用统计量的选择策略
反应变量数 资料特征 不同分析目的下的常用统计量
2
平均水平 变异程度
单峰对称分布,尤其正态*2单个反应变量 、
差、变异系数 方差 S算术均数SCVX分布资料
各种分布类型资料,但主
要是偏态分布资料,分布、全距 四分位间距RQR单个反应变量 中位数 M一端或两端无确切数值的
资料
等比级数资料,经对数变
几何均数 单个反应变量 换呈对称分布资料,尤其— G
对数正态分布资料
多个反应变量 多元正态分布 均数向量 协方差矩阵
*主要用于度量衡单位不同或均数相差悬殊的多个变异程度的比较 CV
表9-2 计数资料与等级资料常用统计量的选择策略
资料特征 主要分析目的 常用统计量 二分类计数资料 某现象发生的频率或强度 率
二分类或多分类计数资料、等级资料 某事物内部各组成部分所占比重 构成比
此外,相对比也是常用的派生统计量指标,是两个有关指标之比,旨在描述两个指标间比例关系。这两个有关的指标可以是基于计量资料、计数资料而计算出的统计量,也可以是某绝对数。
表9-3 解释变量与反应变量间关联性常用统计量的选择策略 解释变反应变
量()量()资料类型 资料特征 主要分析目的 分析方法 常用统计量 YX
个数 个数
b1 1 计量资料 线性、独立、正与的线性直线回归分析 回归系数 YX
态、等方差 依存关系
2 1 计量资料 线性、独立、正、、…与 多元线性回归偏回归系数b,XXXi12m
态、等方差 的线性依存关分析 Y
系
2 1 为计数资非线性 各因素危险度大logistic回归分回归系数 b,Yi
料、等级资料 小 析 优势比 ORi2 1 截尾变量为非线性 各因素危险度大Cox回归分析 回归系数 b,i
计数资料;时小 风险比 RRi
间变量为计
量资料
1 1 计量资料 线性、独立、二相关的程度与方直线相关分析 Pearson相关系数 r
元正态、等方差 向
3
1 1 计量资料或不服从双变量相关的程度与方等级相关分析 Spearman等级相关系数
等级资料 正态分布、总体向 、Kendall 等级相关系rs
分布类型未知、数 rk
有不确定值、双
向有序且、YX
属性不同的
列联表 R,C
1 1 计数资料 列联表 关联程度 关联性分析 Pearson列联系数 R,CC1 1 二分类计数配对四格表 关联程度 关联性分析 点相关系数 r
资料
1 1 为计量资服从正态分关联程度 关联性分析 点双序列相关系数 rYYp , b
料,为二布 X
分类变量
2 1 计量资料 多元正态分布 多个变量同时与多元线性相关复相关系数 ,R
某一变量相关的分析
程度
2 1 计量资料 多元正态分布 其他变量固定多元线性相关偏相关系数,
r 时,某两个变量分析 ijiijjm,,,,,,,,,,,,,,1(1)(1)(1)(1)
间相关程度与方
向
r2 2 计量资料 — 两组变量之间的典型相关分析 典型相关系数 ,,U , Vii
相关程度
第三节 参数估计方法应用策略
一、概念
描述某总体特征的指标称为参数(parameter),但在抽样研究中,参数往往是未知的,抽样研究的目的正是通过样本推断参数。参数估计(estimation of population parameters)是统计推断重要内容之一,分为点估计(point estimation)与区间估计(interval estimation)两种形式。点估计就是用相应样本统计量直接作为其总
1,,体参数的估计值,区间估计是按预先给定的概率()所确定的包含未知总体参数的一个范围。
4
二、常用参数估计方法应用策略
数据分析中常用统计量均是其总体参数的点估计量,如样本均
X数是总体均数的点估计量,样本率是总体率的点估计量。良,p,
ˆ好的参数点估计量必须满足:?无偏性:统计量的数学期望等于被,
ˆ估计参数,;?一致性:即当样本含量无穷大时,统计量等于参n,数,;?有效性:方差最小估计量为有效的估计量。
对于参数的区间估计,可综合考虑分析目的、准确度与精度、
资料分布特征、样本含量及其他有关条件等来选择具体的估计方n
法。主要参数的区间估计方法(双侧)如下。
(一)正态总体均数的可信区间 ,
,1,,1.总体标准差已知或样本含量足够大时,总体均数的,n
可信区间为
,,,, (9-13) ,,X,u , X,u,2,2,,nn,,
,,SS或 (9-14) ,X,u , X,u,,2,2,,nn,,其中,u是标准正态分布水准双侧分位数。一般求其95%可信区,,2
u间, =1.96. 0.05/2
,1,,2.总体标准差未知时,总体均数的可信区间为 ,
,SS, (9-15) X,tX,t , ,,,2,,,2,,,,nn,,
,,n,1其中t是自由度的分布水准双侧分位数 。一般求其95%t,,2,,
t可信区间,查t界值表得。 0.052,,
1,,(二) 总体几何均数的可信区间
5
SS,,lgXlgX,,11,,GtGtlg(lg,) , lg(lg,) (9-18) ,,,,2,2,,,nn,,
,,n,1其中,。
(三) 总体率的可信区间 ,
n,501,,1.若较小(),采用查表法,获得的(95%或99%),n
可信区间;
0.1,p,0.91,,2.若充分大且,采用正态近似法获得的可信区,n
间,
1,,的可信区间为 ,
,,p1,pp1,p,,,,,,p,u , p,u (9-26) ,2,2,,nn,,
,(四)Poisson分布资料总体均数的可信区间
X,50,1,,1.若样本计数,采用查表法,获得的(95%或99%)可
信区间。
X,50,1,,,2.若样本计数,采用正态近似法获得的可信区间,
1,,的可信区间为
,,X,uX , X,uX (9-29) ,2,2
,(五)总体回归系数的1-可信区间 ,
,,b,tS , b,tS (9-30) bb,2,,,2,,
,,n,2其中,为回归系数的标准误, Sb
1,,,(六) 总体均数的可信区间 Y/X0
1,,,利用直线回归方程,在处Y的总体均数的可信区X,X0Y/X0间为
6
22,,(X,X)(X,X)1100,,ˆˆ (9-31) Y,tS, , Y,tS,,,YX,,YX02 , .02 ,.22,,nn(X,X)(X,X),,,,
,,n,2其中,为剩余标准差,。 SY.X
1,,(七)总体相关系数的可信区间 ,
第一步,对样本相关系数作反双曲正切#函数#变换: r
Z,arctanh r (9-32)
11,r (9-33) 或Z,ln21,r
1,,第二步,求的可信区间(,): ZZZUL
,11,ZuZu (9-34) ,,,,,,2,2,,nn,3,3,,
1,,第三步,对(,)作反变换,求的可信区间: ,ZZUL
2Z2ZUL,,ee,1,1,, , (9-35) 2Z2Z,,ULe,1e,1,,
第四节 假设检验方法应用策略
一、概念
假设检验(hypothesis test)是对总体的参数或分布作出某种假设,然后采用适当的方法,根据样本提供的信息,根据小概率原理,推断此假设是否成立,而作出应当拒绝或不拒绝该假设的一种统计推断方法,分为参数法与非参数法两种,是数据分析的重要手段。根据分析目的,有对反应变量所服从的分布进行推断的假设检验;亦有对解释变量不同组别间某个(或多个)反应变量进行比较的假设检验,如对均数、方差或均数向量、率、构成比等的假设检验;还有对解释变量与反应变量间关系进行推断的假设检验,如对回归模型、回归系数、相关系数的假设检验等。
7
二、常用假设检验方法应用策略
假设检验分为参数法与非参数法,在一般情况下,若资料满足参数法应用条件,首先考虑参数法,不满足时才考虑非参数法。具体假设检验方法的确定离不开对以下几个问题的思考。
分析目的:明确假设检验的目的,是推断某样本来自何种分布,是对两组或多组反应变量进行比较,还是对解释变量与反应变量间关系作出推断,
设计
:辨析设计方案,把握众多设计方案的区别与联系。资料类型:判断资料类型,面对的资料是计量的,还是计数或是等级的。
解释变量(分组变量)与反应变量的个数:确认解释变量(分组变量)与反应变量的个数,是单个解释变量对单个反应变量,还是“多”对“单”,“多”对“多”……。同时,须注意解释变量的水平数。
样本含量:考虑样本含量的大小,是小样本还是大样本。
应用条件:不能忽略具体的应用条件,根据应用条件,选择正确的假设检验方法是获得正确、可靠结论的基本保证。
常用假设检验方法应用策略如下。
(一)单个反应变量的完全随机设计研究
1(计量资料
(1)单样本
分析目的:推断某个总体均数与已知总体均数(一般为标准值、理论值或经过大量观察所得稳定值等)是否不等。
n,60应用条件及方法选择: 样本含量足够大()时,可采用单
8
样本检验或单样本检验。样本含量不太大,资料满足正态性要求tu
或通过数据变换满足要求时,可采用单样本检验; t
样本含量不太大且资料不满足正态性要求时,可采用非参数检验,如单样本wilcoxon符号秩检验,其目的是推断某个总体分布位置如中位数与已知总体分布位置是否不同。
(2)两样本
分析目的:推断两个总体均数是否不等。
应用条件及方法选择:两组的样本含量均较大(和)n,60n,6012时,可采用两大样本比较的检验或两样本检验;样本含量不太大,tu
资料满足正态性与方差齐性要求或通过数据变换满足要求时,可采用两样本检验或完全随机设计资料的方差分析。 t
样本含量不太大满足正态性不满足方差齐性,可采用近似(’)tt检验。若不满足正态性或/和方差齐性,采用非参数检验,如两样本wilcoxon秩和检验、Kruskal-Wallis秩和检验,其目的是推断两个总体分布位置是否不同。
(3)多样本
分析目的:推断多个总体均数是否不等。
应用条件及方法选择:资料满足正态性与方差齐性要求或通过数据变换满足要求时,可采用完全随机设计资料的方差分析即检F验。 资料不满足正态性但不满足方差齐性,可采用近似(’)检FF验。若满足正态性或 /和方差齐性,采用非参数检验,如Kruskal-Wallis秩和检验,其目的是推断多个总体分布位置是否不
9
同。
2(计数资料
(1)单样本
与已知总体率(一般为标准值、分析目的:推断某个总体率,,0
理论值或经过大量观察所得稳定值等)是否不等。
应用条件及方法选择:样本含量较大且与均不太小,如,1,,n00
2且 时,可采用单样本检验、单样本检验或二项n,,5n(1,,),5,u00
分布直接计算概率法检验;样本含量较小时,可采用二项分布直接n
n,100计算概率法检验;样本含量较大,如,或很小,如,1,,n00
或时,可采用Poisson 分布直接计算概率法检验。 ,,0.1,,0.900
(2)两样本或多样本
分析目的:推断两个或多个总体率(或构成比)是否不等。
应用条件及方法选择:对于两样本率比较的四格表资料,样本
2,n,40T,5总例数且时,可采用两样本率比较的检验、检验或u
n,405,T,1Fisher确切概率检验;样本总例数且时,可采用两样本
2,率比较的校正检验、校正检验或Fisher确切概率检验;样本总u
n,40例数、或四格表其他假设检验方法所得概率十分接近检验T,1
,水准时,可采用Fisher确切概率检验。对于多样本率或两组(或
R,C多组)样本构成比比较的表资料,的格子数不超过1/5时,T,5
2,可采用检验或Fisher确切概率检验;1/5以上格子的,或有一T,5个格子的时,可采用Fisher确切概率检验。 T,1
3(等级资料
10
对于等级资料,主要采用秩转换的非参数检验。
分析目的:推断两个(或多个)总体分布(或分布位置)是否不同。
应用条件及方法选择:两样本比较时,可采用wilcoxon秩和检验或Kruskal-Wallis秩和检验;多样本比较时,可采用Kruskal-Wallis
秩和检验。
(二)单个反应变量的配对(配伍)设计研究
1(计量资料
(1)两样本(配对设计)
分析目的:推断两个总体均数是否不等(或差值的总体均数与0是否不等)。
n,60应用条件及方法选择:对子数较大()时,可采用配对n
dd差值的单样本检验;配对差值满足正态性要求或通过数据变换u
满足要求时,可采用配对检验或配伍组设计(随机区组设计)资料t
d的方差分析;对子数不太大且差值不满足正态性要求时,可采用n
非参数检验,如配对wilcoxon符号秩检验、配伍组设计(随机区组设计)资料的Friedman秩和检验,其目的是推断两个总体分布位置是否不同。
(2)多样本(配伍组设计,随机区组设计)
分析目的:推断多个总体均数是否不等。
应用条件及方法选择:资料满足正态性与方差齐性要求或通过数据变换满足要求时,可采用配伍组设计(随机区组设计)资料的
11
方差分析;资料不满足正态性与方差齐性要求时,可采用非参数检验,如Friedman秩和检验,其目的是推断多个总体分布位置是否不同。
2(计数资料
分析目的:推断两个总体率是否不等。
b应用条件及方法选择:配对四格表资料中,不相同结果频数为
2,b,c,40与,如,可采用配对四格表资料检验或Fisher确切概率c
2,b,c,40检验;如,可采用校正的配对四格表资料检验或Fisher确切概率检验。
3(等级资料
对于等级资料,主要采用秩转换的非参数检验。
分析目的:推断两个或多个总体分布位置是否不同。
应用条件及方法选择:配对设计,两样本比较时,可采用wilcoxon符号秩和检验;配伍组设计(随机区组设计),多样本比较时,可采用Friedman秩和检验。
(三)单个反应变量的其他设计研究
其他常见设计方案有交叉设计、拉丁方设计、正交试验设计、嵌套设计、析因试验设计、重复测量设计等,若获取资料为计量资料,当满足相应条件时,可分别采用该设计方案对应的单变量方差分析。
(四)双变量关联性
对于具有一个解释变量,一个反应变量的双变量资料,可从相
12
关与回归两方面进行分析,因此有相关系数的假设检验、整个回归模型的假设检验以及回归系数的假设检验。
1(相关分析
分析目的:推断两变量的线性相关关系是否存在(总体相关系数是否不为0)。 ,
应用条件及方法选择:双变量计量资料,满足线性、独立、二元正态与等方差条件时,对Pearson相关系数进行检验,可采用Pearson相关系数的检验或直接查表法检验;不满足二元正态分布t
时,对Spearman秩相关系数进行检验,可采用Spearman秩相关系
R,C数的检验或直接查表法检验;双变量计数资料(表),可采用t
2,Pearson列联系数的检验;反应变量为计量资料,解释变量为二分类变量时,可采用点双序列相关系数的检验。 t
2(回归分析
分析目的:推断解释变量与反应变量的直线数量比例关系是否存在(总体回归系数β是否不为0)。
应用条件及方法选择:满足线性、独立、正态与等方差条件时,可采用回归系数的检验、回归方程的检验。 Ft
(五)多变量关联性
1(相关分析
度量多个变量间相关关系的统计量有复相关系数、偏相关系数,度量一组变量与另一组变量相关关系的统计量有典型相关系数,对此可进行相应的假设检验。
13
2(回归分析
多个解释变量与一个反应变量间数量依存关系的分析有多元线性回归、logistic 回归、Cox回归等,相应的假设检验有对偏回归系数的检验与整个回归方程的检验。
此外,还有:? 对2个或多个组别间的多个反应变量组成
2T的向量组进行的假设检验,如检验、多元方差分析等;? 等方差的假设检验,如检验、Bartlett检验、Levene检验等;? 对F
某样本来自的总体分布进行推断的分布拟合优度检验;? 两变量间的其他非线性关系以及其他多元统计方法,如聚类分析、判别分析、主成分分析、因子分析等涉及到的有关统计量及其对应的假设检验,具体内容请参考有关文献,在此不作阐述。
(钟晓妮)
—摘自《医学科学研究与设计》 主编 孙振球 人民卫生出版社 2008.9
14