null 第八章
秩转换的非参数检验
第八章
秩转换的非参数检验
第二军医大学卫生统计学教研室
孟 虹
第八章内容 第八章内容从数据的设计分类:
*第一节、配对样本资料的Wilcoxon符号秩检验
*第二节、两个独立样本比较的Wilcoxon秩和检验
*为重点
第三节、完全随机设计多个样本比较的Kruskal-Wallis H检验
第四节、随机区组设计多个样本的Friedman M检验
非参数检验的概念
非参数检验的概念
参数检验 : 假定比较数据服从某分布,通过参数的估计量( )对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t、u检验、方差分析。
非参数检验:是指在统计检验中不需要假定总体分布形式和用参数估计量,直接对比较数据的分布进行统计检验的方法。称为非参数检验(nonparametric test).
非参数统计检验—秩和检验 非参数统计检验—秩和检验适用范围广,特别适用于组间比较:
1.数据分布为偏态分布或不满足参数检验方法(组间方差不齐)的计量资料.
2.有的数据为无确切值,只是>某值或<值的计量资料。
3.当比较的数据只能用严重程度、优劣等级的半定量(等级)资料组间的比较。
秩和检验用于定量资料 秩和检验用于定量资料 计量资料中,变量值(x):
极度偏态资料,或个别数值偏离过大
各组离散度相差悬殊
资料中含有不确定值, 大于5年 、 <0.1
兼有等级和定量性质的资料例:两种食物对大鼠心肌坏死面积(格子数)例:两种食物对大鼠心肌坏死面积(格子数)M1=0.6M2=0医学研究中的等级资料医学研究中的等级资料疗 效(x):痊愈、显效、有效、无效、恶化
化验结果(x):- ++ +++
体格发育 (x) :下等、中下、中等、中上、上等
心功能分级(x):I、II、III…
营养水平(x) :差、一般、好例1两组独立计量数据小样本的比较例1两组独立计量数据小样本的比较 观察值(x)
A组 7, 14, 22, 36, 40, 63, 98 ,108 ,n=8
B组 5, 6, 10, 17, 18, 23,29, 49, n=8
A组 48.50±37.88
B组 19.65±14.46
问两组均数差别有无统计意义?常用t检验用t检验,要求数据满足正态和方差齐性条件(计量资料).null两组数据箱式图的比较组别null方差齐性检验:α=0.10
F=37.882/14.462=6.86, P=0.015,两组方差不齐.
在不满足t检验前提,如两均数比较用t检验,
α=0.05, 结果:
t=2.014<t0.05,14=2.1 , P=0.065,
p>0.05
容易增大Ⅱ误差概率!(取伪)
秩和检验的方法----秩转换 秩和检验的方法----秩转换秩和检验的基本计算步骤:
1.将数据(x)按大小转化为秩次(i),用秩次的大小反映变量值的大小。
2.对各组”秩次”求和,称为秩和(T =∑i)。
3.对各组秩和(T)做检验的方法称为秩和检验。 例: 秩转换的基本方法
例: 秩转换的基本方法
将两组比较原始数据(X)混合按大小编秩,如x相同取平均秩, 分别对各组的秩求和(T).
甲组(x) 3 5 10 20 22 秩和
秩号 (i) 1 3 5 7 8 T1=24
乙组(x) 4 9 15 25 35
秩号(i) 2 4 6 9 10 T2=31
总秩和T=10(10+1)/2=55 例: 两组比较的等级数据编秩 例: 两组比较的等级数据编秩 A组 : - 、、 +、 +、 +、 ++
秩(i) : 1 2 4.5 4.5 4.5 8.5
秩和 : TA=25 (组间相同,求平均秩)
B组 : +、++、++、++、+++、+++
秩(i) :4.5 8.5 8.5 8.5 11 12
秩和 : TB=53 (组内相同,不影响求秩和)总秩和 : TA+TB=12(12+1)/2=78null秩次:在一定程度上反映了原始数据大小(等级)的信息。
秩和:反映了一组数据在分布上的范围位置。
平均秩次:反映一组数据平均水平
A组平均秩次=23.5/6=3.92
B组平均秩次=54.5/6=9.08A组(x) 3, 5, 7, 9 11 14
(i) 1 2 3 4 5 8.5 T=23.5
B组(x) 12 13 14 16 20 22
(i) 6 7 8.5 10 11 12 T=54.5第一节、配对样本比较的符号秩检验
( Wilcoxon signed rank test)第一节、配对样本比较的符号秩检验
( Wilcoxon signed rank test)何时选用配对资料的秩和检验
1.配对设计等级资料的比较
2.两组配对计量数据, 变量差值(d)不为正态分布,秩和检验效率高于参数的配对t检验。null讲义例8-1配对设计计量数据
8-1 12份血清用两法测转氨酶结果比较讲义例8-1配对设计计量数据
表8-1 12份血清用两法测转氨酶结果比较用配对t检验的条件:
差值(d)为计量数据,并且服从正态.null对表8-1数据进行正态性检验:
概率图(probality-probality plot,P-P plot)SPSS统计软件数据点不为直线,并未分布在线上,提示本资料不为正态. 配对设计资料的秩和检验步骤(Wilcoxcon signed-rank test) 配对设计资料的秩和检验步骤(Wilcoxcon signed-rank test)方法:
1.将配对数据的差值(d)按绝对值大小转换为秩,如差值为0舍去。
2.求差值的正、负秩和,记为(T+) 、 (T-) 。
3.用任意一个正或负秩和(T)做检验。
4.检验方法有:
1)查表法: (对子数n≤50)*
2)正态近似法,n>50时用公式(8-1)例:表8-1 12份血清用两法测转氨酶结果比较例:表8-1 12份血清用两法测转氨酶结果比较(T+)(T-)例表8-1配对资料秩和检验步骤例表8-1配对资料秩和检验步骤1.建立检验假设:
H0:Md=0, (T +) =(T-),即两种方法测定结果值相同
H1: Md≠0,或(T +) ≠ (T-)
α=0.05
2.编秩,求正、负秩次的秩和(T)
3.任取(T) 查表确定秩和(T)的概率(p)
(本例n=11<50)
null用(T+) 或T- 与 T0.05,n界值范围做比较.
确定p值方法:
① T 在T0.05,n界值范围内, P>0.05
② 等于或在T0.05界值范围外, P≤0.05
本例:查表 824页
(n=11)界值 T0.05=10~56(双侧)
本例 T-=11.5或T+=54.5在T0.05范围内, P>0.05
结论:按α=0.05水准,不拒绝H0,尚还不能认为两法测定值差别有统计意义。
附表9 ,n=11的双侧T界值与概率(p)附表9 ,n=11的双侧T界值与概率(p)T界值 5 10 13 33 53 56 61
P值 0.01 0.05 0.10 0.10 0.05 0.01
例8-1 T-=11.5 , T+=54.5
0.05<P<0.10
如H0假设成立,理论秩和T+=T-=33,
理论总秩和=[11(11+1)/2]=66
抽样n=4,差值(d)秩可能为0,1 ,2 ,3, 4
抽样n=4,差值(d)秩可能为0,1 ,2 ,3, 4
秩和(T) 秩的组成 f 概率(p=f/16)
0 0 1 0.0625
1 1 1 0.0625
2 2 1 0.0625
3 3 1+2 2 0.125
4 4 1+3 2 0.125
5 1+4 2+3 2 0.125
6 1+2+3 2+4 2 0.125
7 1+2+4 3+4 2 0.125
8 1+3+4 1 0.0625
9 2+3+4 1 0.0625
10 1+2+3+4 1 0.062516符号秩和检验的基本思想符号秩和检验的基本思想 如H0成立,则理论上差值(d)的正、负秩和应相等,或样本的T+ 与 T- 均接近理论上秩和(T)。 T=[ N(N+1)/2]/2。
如果样本秩和与理论秩和相差太大,超出了事先规定的检验水准界值, 则认为H0成立可能性小,拒绝H0 。
资料8-1Wilcoxon Signed Ranks Test资料8-1Wilcoxon Signed Ranks Test用参数法配对t=1.602,
P=0.137第二节、两组独立样本比较的—秩和检验第二节、两组独立样本比较的—秩和检验常用方法:W检验(Wilcoxon rank sum test)
常见的数据形式:
计量数据的两组比较
例数较少(原始数据形式)
等级数据的两组比
例数较多(频数表形式)表8-5肺癌病人与矽肺0期工人RD值比较表8-5肺癌病人与矽肺0期工人RD值比较总T=253表8-5资料t检验计算结果表8-5资料t检验计算结果两独立样本秩和检验计算步骤两独立样本秩和检验计算步骤1. 两组变量值混合编秩求出各组秩和 .
有相同x值在不同组,求平均秩.
2.对n较小组求秩和(T)做统计检验
3.检验方法:
1)查表法:较小组例数n≤10查表确定统计量(T)的概率
2)正态近似法: 计算u值, 公式8-2
(较小组例数n>10) 例:表8-3资料秩和检验 例:表8-3资料秩和检验1.建立检验假设:
H0:两组RD值的总体分布位置相同
H1:肺癌病人RD值高于矽肺0期工人
α=0.05(单侧)
2.确定检验的统计量(T)
当n1≠n2时,取例数较小组的秩和为T.
本例:较小组 n1=10, T1=141.5
当n1=n2,任取一个组的秩和为T。null3.本例n1=10,查附表10确定T概率(825页)
用T与T0.05,n比较,如T在T0.05界值范围内,
p>0.05,不拒绝H0
查表 n=10 单侧 T0.05,10=89~141
本例 T=141.5 p<0.05
结论:在α=0.05水准, p<0.05,拒绝H0,两组 变量值分布差别有统计意义,肺癌组平均秩次(141.5/10=14.15)高于矽肺0期组平均秩次(111.5/12=9.29)。
,两组秩和检验界值范围和概率两组秩和检验界值范围和概率例数n1=10,n2-n1=2的界值 单侧概率
界值: 假设成立T1理论秩和=115
76 79 84 89 115 141 146 151 154
0.05
0.025
0.01
0.005 本例 T=141.5 p<0.05两组秩和检验的基本思想两组秩和检验的基本思想 如H0:“两总体观察值的分布相同”假定成立, 则n1样本的秩和(T1)应接近n1理论的秩和 n1(N+1)/2。
同理,n2样本的秩和(T2)与应n2(N+1)/2相差不大。
如相差悬殊,即P<0.05 ,表示H0假定成立的概率较小,便拒绝H0假定。
例:两组变量值分布相等,n1=n2例:两组变量值分布相等,n1=n2甲组(x1) 2 4 5 8 秩和
秩次 1.5 3.5 5.5 7.5 18
乙组(x2) 2 4 5 8
秩次 1.5 3.5 5.5 7.5 18
总秩和=N(N+1)/2=8(8+1)/2=36
各组理论秩和=
各组平均秩次=(N+1)/2=4.5例:两组变量值例数不相等例:两组变量值例数不相等甲组(x) 2 4 5 5 秩和
秩次 1.5 3.5 6 6 17
乙组(x) 2 4 5
秩次 1.5 3.5 6 11
假设两组分布相等
甲组理论秩和=4(7+1)/2=16
乙组理论秩和=3(7+1)/2=12
null 肺癌组 矽肺组 总秩和
样本秩和 141.5 111.5 253
理论秩和 115 138
差值 26.5 -26.5
抽样误差?
如果H0成立,则理论秩和与样本秩和之差应不大。 表8-5肺癌病人与矽肺0期工人RD值比较
表8-7 N=7,n=2的取秩组合和秩和(T)
表8-7 N=7,n=2的取秩组合和秩和(T)
取秩 1,2 1,3 1,4 1,5 1,6 1,7 2,3 2,4 2,5 2,6 2,7
T 3 4 5 6 7 8 5 6 7 8 9
取秩 3,4 3,5 3,6 3,7 4,5 4,6 4,7 5,6 5,7 6,7
T 7 8 9 10 9 10 11 11 12 13
表8-8 N=7,n=2的T概率分布
T 3 4 5 6 7 8 9 10 11 12 13
P 0.04 0.04 0.095 0.095 0.142 0.142 0.142 0.095 0.095 0.04 0.04
0.100.05(二)u检验法—正态近似法( 例数超出附表10范围)(二)u检验法—正态近似法( 例数超出附表10范围)
采用公式8-2计算u值,确定p值。
公式8-2U≥1.96,p≤0.05T为n小的组秩和
Tj为相同秩的个数null频数表资料和等级数据的两组比较表8-6表8-6计算步骤计算步骤1.建立检验假设:
H0:两组观察值的总体分布位置相同
H1:两组观察值的总体分布位置不同
α=0.05
2.混合编秩,求各组秩和
3.确定检验的统计量(T)
方法同前:本例T=1917(例数较小组)
例: 表8-6频数表资料null 吸烟组 不吸烟组 总秩和
例数 39 40
样本秩和 1917 1243 3160
理论秩和 1560 1600 3160
差值 357 -357
平均秩次 49.15 31.07
H0:两组变量值的分布相同
结论:在α=0.05水准, p<0.01,拒绝H0,两组变量值分布差别有统计意义,吸烟组工人的HbCO(%)高于(平均秩次为49.15) 对照组(31.07). 例: 表8-6频数表资料
null式中t为各等级的合计数u=3.7023>2.58校正系数第三节、多组资料的秩和检验
(Kruskal-Wallis H检验)第三节、多组资料的秩和检验
(Kruskal-Wallis H检验)1.多个独立样本资料的比较
1)编秩方法同两组资料(不配对)相同.(混合编秩)
2)计算检验公式为H(公式8-4)
null1)查表法(总例数N≤15时)
2) N>15时, 用H值与卡方界值做比较.
3.如p 值有统计意义,做组间的两两比较(见讲义).2.确定H统计量的p 值 null表8-9 三个独立样本的比较变量值为百分率,不符合正态要求。检验步骤检验步骤 1.建立检验假设:
H0:三组药物死亡率总体分布位置相同
H1:三组药物死亡率总体分布位置不同
α=0.05
2.混合编秩,求各组秩和(R)
3.计算 H=9.74
4. 确定p值null本例N =15,查表附11 ,结论:p<0.01,认为三组药物灭螺的效果不同二、多个独立样本两两比较二、多个独立样本两两比较表8-10资料三组间平均秩和的两两比较
比较组 χ2 p 值
1与2组比较 6.72 p<0.05
1与3组比较 8.15 p<0.05
2与3组比较 0.016 p>0.05null2.多个样本的等级资料比较H0:四组嗜酸性细胞总体分布位置相同H0:四组嗜酸性细胞总体分布位置相同N=60>15,查 表确定H值的概率结论:四组疾病患者的嗜酸性细胞不同。 小结:秩和检验的优缺点 小结:秩和检验的优缺点优点:
不考虑资料分布,适用范围广,计算简单。常用于不满足参数检验的计量数据和等级数据的比较。
缺点:
对于满足参数检验的资料,秩和检验的效率低于参数检验(t,F检验)。
注意:单向有序的等级资料比较用秩和检验的统计效率高于卡方检验。秩和检验给予数据”秩”的信息.
单向有序数据,反应变量数据为等级时单向有序数据,反应变量数据为等级时 表a 某病两组疗效的比较
组别 无效 有效 显效 痊愈 合计
试验组 18( 31.6) 18 (31.6) 15(26.3) 6 (10.5) 57
对照组 21 (46.7) 15( 33.3) 8(17.8) 1( 2.2) 45
Total 39 33 23 7 102
试验组有效率=68%,对照组=53%
计算χ2=4.81, p=0.186, p>0.05
计算两组秩和检验,u=2.64,p<0.01 表8-11四种疾病患者痰液内嗜酸性细胞表8-11四种疾病患者痰液内嗜酸性细胞比较组白细胞(白细胞:1=-, 2=+, 3=++, 4=++++ )肺水肿支气管肺癌呼吸感染null秩和检验检验
本次内容结束
谢 谢 大 家