为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 中医药统计学与软件应用笔记重点

中医药统计学与软件应用笔记重点

2020-04-18 5页 doc 2MB 45阅读

用户头像 机构认证

金水文库

鑫淼网络科技有限公司主要经营:PPT设计 、课件制作,软文策划、合同简历设计、计划书策划案、各类模板等。公司秉着用户至上的原则服务好每一位客户

举报
中医药统计学与软件应用笔记重点。中医药统计学与软件应用笔记重点绪论统计学家C.R.劳先生在《统计与真理——怎样运用偶然性》中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。一、统计学的概念、发展简史及主要内容1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3....
中医药统计学与软件应用笔记重点
。中医药统计学与软件应用笔记重点绪论统计学家C.R.劳先生在《统计与真理——怎样运用偶然性》中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。一、统计学的概念、发展简史及主要内容1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:①依赖数学。②与计算机技术结合。③与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。④从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。4.统计学的主要内容⑴研究设计:专业设计、统计学设计⑵统计学的基本概念、原理和思维方法⑶统计描述:统计指标、统计图表⑷统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1.统计工作的基本步骤(1)统计学设计(2)搜集资料:①常规保存的记录;②现场调查记录;③实验/试验记录;④医学文献/网络信息。(3)整理资料:①检查;②审核;③计算机检查;④分组。(4)分析资料2.统计学认识现象的特点(1)数量性:(2)群体性:(3)具体性:(4)概率性:三、统计学中常用的概念1.总体(population):是根据研究目的确定的同质观察单位的集合。例①河北省18岁男性的身高和体重分布②某性红地2005年健康成年男细胞数③河北省18岁身高在170-175cm男性的体重分布⑴有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。⑵无限总体:指没有空间和时间范围限制的总体。2.样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。样本的代表性:即样本能够充分反映总体的真实情况。3.随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。不能将随机理解为随便。4.事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。⑴确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。⑵随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于0~1之间。⑶模糊事件:事物本身的含义不确定的现象。5.频率(frequency):对于随机事件A,在相同的条件下进行了n次实验,事件A发生的次数为m,比值m/n为频率,记为fn(A);概率(probability):描述某随机事件A发生的可能性大小,统计符号为P,0≤P≤1,记为P(A)。当n→∝时,频率fn(A)→概率P(A)。小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把P≤0.05或P≤0.01的事件称为小概率事件。6.变异(variation):总体中各个体之间的差异性。同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。变异是绝对的、客观存在的。7.误差(error):指测量值与真值之差。⑴过失误差:也叫粗差。观测者粗心大意造成的误差。⑵系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。⑶测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。⑷抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。8.统计量(statistical):是反映样本特征的统计指标。统计符号为小写的英文字母。如样本均数、样本标准差s、样本率p等。9.参数(parameter):是描述总体特征的统计指标。统计符号为小写的希腊字母。如总体均数μ、总体标准差σ、总体率π等。10.统计资料的类型根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量。变量的具体数值(变量值)构成了统计数据或统计资料。统计资料分为两类:1值变量(numericalvariable):亦称定量资料。是指对每个观察单位用计量方法测得某项数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如身高1.75m、体重68kg、血压9.6kPa、血糖6.8mmol/L。⑵分类变量(categoricalvariable):又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类:1序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。2序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数,但不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。四、学习中医统计学的目的1.顺应中医药学的发展趋势。2.强化中医科研的性和科学性。3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、学习中医统计学的注意事项1.理解和领会基本概念和原理,切忌死记硬背。2.不追究的来源和推导,但要掌握其应用条件。3.重视分析问和解决问题能力的培养。4.学会使用统计软件。数值变量资料的统计描述统计描述——概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。目的:是根据样本中所包含的信息,客观、正确地推论出其总体规律。第1节频数分布频数:相同观察值或观察结果出现的次数。 分布:指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。一、频数分布的特征1.集中趋势:指一组变量值的集中倾向或中心位置。2.离散趋势:即一组变量值的离散倾向。二、频数分布的类型1.对称分布:指集中位置居中、左右两侧的2.非对称分布:亦称偏态分布,是集中位置频数分布基本对称的频数分布。偏倚、两侧频数的分布不对分为正态分布和非正态分布两称的频数分布,可分为正种类型。偏态和负偏态分布。三、频数分布表/图的作用1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题:随机抽取某地120例正常人,测得血清铜的含量(μmol/L)如下表,试编制频数表。13.8412.5313.7014.8917.5313.1918.8214.7317.4413.9914.1012.2912.6114.7814.5914.7118.6219.0410.9513.8110.5313.5611.4813.0716.8817.0417.9812.6711.039.2315.0414.0915.9011.4814.6413.6414.3915.7413.9911.3117.6116.2613.5311.6813.2511.8814.2115.2115.2913.7014.4511.2319.8413.1115.1511.70频数表的编制方法:1.找极值:Xmax=19.84,Xmin=9.232.求全距:R=Xmax-Xmin,R=19.84-9.23=10.613.定组数:K=8~15。4.求组距:i=R/(K–1)(i为组距,k为组段数,R为全距)i=10.61/(11-1)=1.061≈15.确定各组段的上下限:6.归纳计数:某地120名正常成年人血清铜含量频数表组段频数f频率P(%)fCPC(%)9.00~ 32.532.510.00~ 43.375.811.00~1210.01915.812.00~1310.83226.613.00~1714.24940.814.00~2218.37159.115.00~1815.08974.116.00~1310.810284.917.00~119.211394.118.00~54.211898.319.00~21.7120100.0合计120100.0五、频数图概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。等距分组——以横轴表示变量,以纵轴表示频数。不等距分组——以横轴表示变量,但纵轴是频数除以组距。第二节数值变量资料集中趋势的描述集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数:是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数一、算术平均数1.定义:算术平均数简称均数。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数,表示总体均数。2.适用条件:正态或近似正态分布的资料。如生理指标。3.计算方法:⑴直接法:有n个观察值,分别为X1,X2,……Xn,式中Σ是求和的符号。例题:10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。⑵加权法:用于观察值中相同数据较多或频数表资料。=1737.00/120=14.48(μmol/L)二、几何均数1.定义:n个数值连乘积的n次方根。是比例或倍数上的平均。统计符号G。2.应用条件:等比数列资料。如抗体滴度。3.计算方法:例题:6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。平均滴度为1:8。三、中位数1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号M。2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。3.计算方法:n为奇数时n为偶数时式中、及均为下标,表示有序数列中观察值的位次。例题:某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。本例n=9,M=X5=3(天)。如果本例n=10,第10个数值为16天,则M=(3+4)/2=3.5(天)。2数表法用于观察值例数较多或频数表资料。L为M所在组段的下限;i为该组段的组距;fm为该组段的f;n为总例数;ΣfL为小于L的各组段的fC。例题:905例男性银屑病病人的发病年龄年龄频数f累计频数fC累计频率pC(%)<1054545.9710~252306(ΣfL)33.8120~346(fM)65272.0430~12878086.1940~8486495.4750~2989398.6760~589899.23≥707905(n)100.00M=20+(10/346)(905/2-306)=24.23(岁)第三节数值变量资料的离散趋势描述离散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布)学生科目变异指标12345RS2SCVA78798081828042.51.581.98B60708090100804025015.8119.76A、B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。A较集中,变异较小;B较分散,变异较大。一、全距(R)概念:亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。R=xmax-xmin优点:1.意义明确、计算简便。2.稳定性较差。3.受n大小的影响。4.可应用于任何分布。二、百分位数和四分位间距1.百分位数:是把一组观察值从小到大排列,分为100等份,与x%位次所对的数值即为第百分之x位数。以Px表示。一个Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。是一种位置指标。M即P50。2.四分位数间距:是上四分位数QU(P75)与下四分位数QL(P25)之差,符号为QR。是中间50%观察值的极差。QR=QU-QL=P75-P25用途:⑴常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。3表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。例题:905例男性银屑病病人的发病年龄(同前)计算方法:P25=10+(10/252)×(905×0.25-54)=16.84(岁)P75=30+(10/128)×(905×0.75-652)=32.09(岁)QR=P75-P25=32.09-16.84=15.25(岁)三、方差 概念:方差即离均差平方和的均值。总体方差的符号为σ2,样本方差符号为s2。优点:由于s2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。应用条件:要求资料服从正态或近似正态分布。四、标准差 概念:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为σ,样本标准差的符号为s;英文缩写为SD。例题:A学生:n=5,ΣX=78+79+80+81+82=400;ΣX2=782+792+802+812+822=32010B学生:n=5,ΣX==400;ΣX2==33000用途:⑴表示正态或近似正态分布的离散程度。⑵描述数值变量的频数分布特征(±s)。⑶制定医学参考值范围。⑷与均数结合计算变异系数。⑸与样本含量结合计算标准误。五、变异系数概念:一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号CV用途:⑴比较度量单位不同或均数相差悬殊时几组样本资料的离散性。⑵比较实验指标的稳定性及测定方法的精密度。例题:(1)某单位测得28例成年脾虚病人的红细胞数为3.10土0.86×1012/L;血红蛋白值为87.2土33.3g/L,试比较该两项指标的变异程度。CVRBC=(0.86/3.10)×100%=27.74%;CVHb=(33.3/87.2)×100%=38.19%可认为Hb的变异程度比RBC大。(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52.8土1.5,试比较两种实验动物ALT指标的实验稳定性。CV大鼠=(1.4/29.4)×100%=4.76%;CV家兔=(1.5/52.8)×100%=2.84%可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3.集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数标准差偏态分布:中位数四分位数间距等比资料:G正态分布及其应用第1节正态分布某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、正态分布:又称Gauss分布或常态分布,是一种最重要的连续型分布。正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。二、正态分布的密度函数(–∞<x<∞)f(x)为与x对应的正态曲线的纵坐标高度;μ为总体均数;σ为总体标准差;π为圆周率,即3.14159;e为自然对数的底,即2.71828。三、正态分布的特征1.在X轴上方,均数所在处最高。2.集中性、对称性和均匀变动性。3.正态分布有两个参数μ和σ。四、标准正态分布由于不同的正态分布有不同的μ和σ,用公式计算的随机变量x落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换(即u变换):u=(x-μ)/σ。此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为μ=0、σ=1的标准正态分布(亦称u分布),记为N(0,1)。五、标准正态分布的密度函数(–∞<u<∞)式中(u)为标准正态分布的密度函数,即纵坐标高度。六、正态曲线下面积分布的规律:七、正态分布的应用1.统计分析方法的基础:很多抽样分布,如卡方分布、t分布都是建立在正态分布的基础上。2.质量控制:为了控制检测误差,常以±2s作为上下警戒线;±3s作为上下控制。3.估计医学参考值范围。4.进行参数估计和假设检验。第二节正态分布的应用一、可根据正态分布的规律估计观察值的频数分布范围。例题已知某地120名正常人血浆铜含量(μmol/L)的均数=14.48、s=2.27,估计该地120名正常人血浆铜含量在14.20~15.60(μmol/L)范围内的人数。1.计算u值当μ和σ未知时,u=(x-)/s。x1=14.20,u1=(14.20-14.48)/2.27=-0.12x2=15.60,u2=(15.60-14.48)/2.27=0.492.查表-0.12左侧的面积就是0.12右侧的面积。当u=0.12时,在表的左侧找到0.1,在表的上方找到0.02,二者相交处为0.5478,Ф(-0.12)=1-0.5478=0.4522,即标准正态变量u值小于-0.12的概率为0.4522;当u=0.49时,Ф(0.49)=0.6879,即u值小于0.49的概率为0.6879。3.确定概率u值在-0.12~0.49范围内的面积为:Ф(0.49)-Ф(-0.12)=0.6879-0.4522=0.2357,即血浆铜含量在14.20~15.60(μmol/L)范围内的概率为23.57%。4.估计区间内人数120名正常人血清铜含量在14.20~15.60(μmol/L)范围的人数为120×23.57%=28人二、制定医学参考值范围1、医学参考值的意义医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围。使用“参考值范围”的目的:个体—临床上划分正常人与异常人的参考。人群—制订不同性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。2、制定参考值范围的步骤选定健康人作为调查对象。控制测量误差。确定样本含量。根据实际意义分组。决定取单侧还是双侧界限。选定适当的百分界限。常用95%、80%、90%、99%等。制定医学参考值范围。3、制定参考值范围的常用方法正态分布法适用于正态或近似正态分布的资料。表达式为,α为正态曲线下单侧或双侧尾部的面积,uα为α相应的标准正态离差。双侧95%的界限值为:单侧95%的上限值为:单侧95%的下限值为:例题:某地调查正常成年男子144人的红细胞数,得均数5.38(1012/L),标准差0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。因红细胞数过多或过少均为异常,用双侧界值。下限:-1.96s=5.38-1.96×0.44=4.52上限:+1.96s=5.38+1.96×0.44=6.24该地成年男子红细胞数的95%参考值范围(4.52—6.24)1012/L。百分位数法:是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数作为参考值的上限或下限。适用于非正态分布或分布未知的资料。1)双侧95%参考值范围:P2.5~P97.52)单侧95%参考值范围上限值:P953)单侧95%参考值范围下限值:P5总体均数的估计参数估计:是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。第1节抽样分布与抽样误差◆医学科研的常用方法是抽样研究。◆由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差。一、样本均数的抽样分布与标准误1.样本均数的抽样分布:指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些个样本代表值的大小就形成了一个抽样分布。2.抽样分布的特点:(1)各统计量间存在差异,统计量不一定等于参数。(2)统计量的变异范围比原变量的变异范围大大缩小。(3)随着n增加,样本均数的变异程度减小。(4)如果原始变量服从正态分布,则统计量也服从正态分布。如果原始变量不服从正态分布,若n较大,则统计量服从正态分布;若n较小,则统计量为非正态分布。3.抽样误差:是因抽样产生的样本与样本、样本与总体相应统计指标之间的差异。◆由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的。◆抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。4.标准误:◆表示样本指标值在抽样分布中的变异情况。 ◆SE越小,说明抽样误差越小,用统计量来估计参数时的可靠程度越大;反之,SE越大,说明抽样误差越大,用统计量来估计参数时越不可靠。均数的标准误:◆样本均数的标准差也称均数的标准误。◆反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明均数抽样误差的大小。估计标准误:◆由于σ往往未知,常以S替代,算得的标准误称估计标准误。其统计符号。◆由于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工作中可将标准误作为描述统计指标可靠性的依据。5.标准差与标准误的比较 标准差 均属标准误 意义 描述个体观察值之间的离散性(变异程度) 描述同一总体中随机抽出样本含量相同的多个样本均数间的离散性 公式 与n的关系 随着n的增大逐渐趋于稳定 随着n的增大逐渐减小,与n的平方根成反比。 用途 表示观察值得变异大小;结合样本均数描述正态分布的特征;在正态分布时做参考值范围的估计;计算变异系数和均数的标准误 表示样本均数抽样误差的大小;描述样本均数的可靠性;结合样本均数估计总体均数的CI;进行均数间差别的假设检验例题:已知某样本资料的s=2.27(μmol/L),n=120,求其标准误。代入公式得:二、t分布及其应用1.t分布:若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均数μ呈现正态分布。若将所有样本均数按公式进行数学变换,可得u围绕0的标准正态分布。由于总体标准差未知,只能求出标准误的估计值,变换公式求t值,可得到若干t值。将这些t值绘成直方图,若样本无限多,可绘成一条光滑的曲线——t分布曲线,此时所得的t值围绕0呈现的就是t分布。2.t分布的特征:(1)是一簇单峰分布曲线,以0为中心,左右对称。(2)其形态变化与自由度ν的大小有关——ν越小,则t值越分散,t分布曲线越低平,t分布的峰部越矮而尾部翘得越高;ν越大,t分布越逼近正态分布。(3)t分布的单侧概率和双侧概率在t界值表中,横标目为自由度ν,纵标目为概率(P或α)。一侧尾部面积称为单侧概率或单尾概率;两侧尾部面积之和称为双侧概率或双尾概率。表中数字表示当ν和α确定时,对应的t的界值,其中与单尾概率相对应的t界值用表示,与双尾概率相对应的t界值用表示。查t界值表注意:由于t分布是以0为中心的对称分布,故附表2只列出正值,查表时,不管t值正负,均可用其绝对值︱t︱查表得概率P值。相同自由度时,︱t︱值增大,概率P减小;在相同︱t︱值时,双尾概率P是单尾概率P的两倍。如双尾=单尾=1.8123.t分布的用途:总体均数的区间估计;t检验。第二节总体均数的估计是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。总体均数估计的方法有点估计和区间估计两种。一、总体均数的点估计点估计概念:用样本确定的统计量的值来直接估计总体参数的数值。方法:以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值。优点:方法简单。缺点:未考虑抽样误差的影响。二、区间估计——根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或可信系数,符号为1-α,常取95%或99%。称按95%或99%水准确定的CI为95%CI或99%CI。1.大样本资料均数的可信区间样本例数n足够大(n≥100)时,可按正态分布原理,用以下公式估计总体均数μ的CI。95%CI=99%CI=例题:测得某地296例成年男性发锌的均数为200.0ppm,标准差为21.8ppm。试估计该地成年男性发锌总体均数的95%CI。本例n=296,=200,s=21.8,==1.27。95%CI=200.0±1.96×1.27=(197.51,202.49)该地成年男性发锌总体均数的95%CI为197.51~202.4ppm。2.小样本资料均数的可信区间当n较小(n<100)时,一般按t分布原理,用以下公式估计总体均数μ的CI。95%CI=99%CI=式中t0.05/2,ν与t0.01/2,ν为t0.05与t0.01的双侧界值。例题:测得某地12例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208.33μm,标准差为67.07μm。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95%CI。本例n=12,=208.33,s=67.07,==19.36ν=n-1=12-1=11。查t界值表得t0.05/2,11=2.201,按公式求得: 95%CI=208.33±2.201×19.36=(165.72,250.94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95%CI为165.72~250.94μm3.可信区间的要素(1)准确度:是CI包含总体参数的概率大小,用可信度的大小1-α表示。可信度越接近1,可信程度越高,准确度越高。如可信度99%比95%可信程度高。(2)精密度:是对总体参数的估计范围或长度的度量,反映在CI即长度愈小愈精密。每一次估计间的差异越小,CI愈小,即CI的长度越小,其估计的精密度越高。4.可信区间的特点(1)当n确定后,CI范围的大小与可信度1-α的高低呈正比,与估计结果的精密度呈反比。(2)当可信度1-α确定后,n的大小与CI范围的大小呈反比;与估计结果的精密度呈正比。因为增加样本例数会减小标准误,使CI的范围缩小。CI的范围越小,真实值靠近点估计值的可能性越大,靠近CI边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大。5.可信区间与可信限的关系CI为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内)。CU与CL是CI的上下两个界值。如95%CI为(165.6,251.0)μm。165.6μm是CI的下限(L),251.0μm为CI的上限(U)。6.CI与参考值范围的比较 (1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围。(2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准差计算,用于判断观察对象的某项指标正常与否。假设检验一、假设检验的概念与分类概念:亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计量)与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。(1)参数检验和非参数检验1.参数检验概念:依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有χ2检验、t检验、F检验等。使用条件是抽样总体的分布已知。优点:能充分利用样本信息;检验效率较高。缺点:应用条件限制较多。2.非参数检验概念:一类不依赖总体分布的具体形式的统计方法。如Ridit分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等。优点:①对总体的分布形式不要求;②可用于不能精确测量的资料;③易于理解和掌握;④计算简便。缺点:不能充分利用资料所提供的信息,使检验效率降低。(二)单因素分析与多因素分析1.单因素分析——亦称一元分析,是在主要的非处理因素相同的条件下,不管影响结果的处理因素(如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等)有多少,每次仅分析一个处理因素与效应之间关系的统计方法。2.多因素分析——亦称多变量分析或多元分析,是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计分析方法。二、假设检验的基本思想先假设差别由抽样造成,即总体间本无差异,在此假设成立的前提下做抽样研究,如果该次抽样属小概率事件,则样本信息不支持原假设的成立,拒绝它。三、假设检验的基本步骤例题:根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某医院随机调查30名脾虚男子,求得脉搏均数为74.2次/分,标准差为7.5次/分。脾虚病人的脉搏是正态分布,问脾虚男子的脉搏均数与一般成年男子的脉搏均数是否相等?分析:把一般成年男子的脉搏均数看作一个总体均数,脾虚男子的脉搏均数为样本均数。μ0=72,n=30,X=74.2,s=7.5。μ0≠的原因:①抽样误差所致。②脾虚致两个均数间有本质性差异。1.建立假设、确定检验水准⑴无效假设:记为H0,即样本均数所代表的总体均数μ与已知的总体均数μ0相等。样本均数与μ0的差异是由抽样误差引起,无统计学意义。⑵备择假设:记为H1,即样本均数所代表的总体均数μ与μ0不相等,样本均数与μ0的差异是本质性差异,有统计学意义。假设检验有双侧检验和单侧检验若目的是推断两总体均数是否不等,应选用双侧检验。H0:μ=μ0,H1:μ≠μ0若从专业知识已知不会出现μ<μ0(或μ>μ0)的情况,则选用单侧检验。H0:μ=μ0,H1:μ<μ0(或μ>μ0)确定检验水准检验水准亦称显著性水准,符号为α,是事先规定的对假设成立有否作出判断的根据。α常取0.05或0.01。2.选择检验方法、计算统计量根据:①研究目的,②资料的类型和分布,③设计方案,④统计方法的应用条件,⑤样本含量大小等;选择适宜的统计方法并计算出相应的统计量。3.确定P值、做出推论假设检验中的P值是指在由无效假设所规定的总体作随机抽样,获得等于及大于(和/或等于及小于)现有统计量的概率。即各样本统计量的差异来自抽样误差的概率,它是判断H0成立与否的依据。确定P值的方法主要有两种⑴查表法根据检验水准、样本自由度直接查相应的界值表求出P值。⑵计算法用特定的公式直接求出P值。推论:若P>α,就没有理由怀疑H0的真实性,则结论为不拒绝H0,做出不否定此样本是来自于该总体的结论,也即差别无显著性意义;若P≤α,则拒绝H0,接受H1,也就是说这些统计量来自不同的总体,其差别不能由抽样误差来解释,下结论为差别有显著性意义。t检验以t分布为理论基础,对一个或两个样本的数值变量资料进行假设检验常用的方法,属于参数检验。第二节单样本t检验概念:亦称样本均数与总体均数比较的t检验。用于从正态总体中获得含量为n的样本,算得均数和标准差,判断其总体均数μ是否与某个已知总体均数μ0相同。已知总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值。一、适用条件:1.对正态分布的数值变量资料,需用t检验。2.对于非正态分布的资料,若经过变量变换使成正态分布,可按t检验处理;否则,用非参数检验的方法。二、正态性检验的方法检验假设H0为总体分布是正态分布,当P>α时,不拒绝H0,认为样本所来自的总体服从正态分布;而P≤α时,拒绝H0,认为样本所来自的总体不服从正态分布。1.W检验Shapiro-Wilk检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为W,又称为W检验。在样本量3≤n≤50时使用。2.D检验Kolmogorov-Smirnov检验的统计量为D,所以也称D检验,在样本量50≤n≤1000时使用。三、计算公式,,ν=n-1式中为样本均数,μ为总体均数,n为样本含量,s为样本标准差,ν为自由度。四、检验步骤1.建立假设、确定检验水准H0:μ=μ0,H1:μ≠μ0,α=0.052.选择检验方法、计算统计量3.确定P值、做出推论ν=30-1=29,查t值表,t0.05/2,29=2.045,今t=1.607<t0.05/2,29,P>0.05。按α=0.05水准,不拒绝H0,根据现有样本信息,不能认为脾虚男子脉搏数与健康人不同第三节配对设计资料均数的t检验配对设计——将观察单位按照某些特征(如性别、年龄、病情等可疑混杂因素)配成条件相同或相似的对子,每对中的两个观察单位随机分配到两个组,给予不同的处理,观察指标的变化。①同一观察单位实验(或治疗)前后的比较;②同一样品用两种方法检验结果的比较;③配对的两个观察单位分别接受两种处理后的数据比较。配对t检验配对t检验——又称成对t检验,是将对子差数d看做变量,先假设两种处理的效应相同,μ1—μ2=0,无显著性,推断两种处理因素的效果有无差别或某处理因素有无作用。由于此种设计使影响结果的非被试因素相似或相同,因而提高了研究效率。一、适用条件:1.设计类型是配对设计。2.数值变量的对子差值是正态分布。二、计算公式ν=n-1,式中d为各个对子数值的差数,为差数的平均数,为差数的标准差,为差数的标准误,n为对子数。三、检验步骤例题:对10名患者分别用湿式热消化-双硫腙法和硝酸-高锰酸钾冷消化法测定尿铅,问两法测得结果有无差别。用两种方法测定尿铅结果(μmol/L) 患者号 冷消化法 热消化法 差值d d2 1 2.41 2.80 -0.39 0.1521 2 12.07 11.24 0.83 0.6889 3 2.90 3.04 -0.14 0.0196 4 1.64 1.83 -0.19 0.0361 5 2.75 1.88 0.87 0.7569 6 1.06 1.45 -0.39 0.1521 7 3.23 3.43 -0.20 0.04 8 0.77 0.92 -0.15 0.0225 9 3.67 3.81 -0.14 0.0196 10 4.49 4.01 0.48 0.2304 合计 0.58(d) 2.118(d2)1.建立假设、确定检验水准H0:μ=μ0,H1:μ≠μ0,α=0.052.计算统计量t值先计算差值d及d2(如表),得∑d=0.58,∑d2=2.1182计算差值的标准误3.确定P值、做出推论ν=n-1=10-1=9,查t界值表,得双侧t0.05/2,9=2.262,本例t<t0.05/2,9,P>0.05。按α=0.05水准,不拒绝H0,不能认为两法测定尿铅结果有差别。第四节独立样本t检验与t′检验独立样本资料——是在两个总体里分别随机抽样,或将同一总体里抽取的观察对象随机分为两组,采取不同的处理得到的资料。独立样本t检验——亦称两样本t检验或成组t检验。与t′检验均适用于完全随机化设计两独立样本的比较,目的是推断两独立样本均数所代表的未知总体均数μ1与μ2是否有差别。一、独立样本的方差齐性检验方差齐性——两个样本均数的假设检验,除了要求样本资料来自正态分布或近似正态分布,还要求两个样本的总体方差相等。(一)应用条件:两个样本均来自正态分布的总体。(二)计算公式:统计量F为较大的方差与较小的方差的比值。F=s12/s22,ν1=n1-1,ν2=n2-1(三)检验步骤例题:某医师要观察自拟中药方“降脂胶囊”对高血脂症的疗效,将诊断为高血脂的20例病人随机分为两组,一组用上述中药治疗,另一组用西药治疗,3个月后测量血清胆固醇含量(mmol/L如下,已知两组血清胆固醇含量均服从正态分布,试比较两药降低胆固醇的效果有无差别。1.建立检验假设、确定检验水准H0:两总体方差相等H1:两总体方差不相等α=0.10(α较大以减少II类错误)2.选择检验方法、计算统计量中药组S2=0.580;西药组S2=0.466F=s12/s22=0.580/0.466=1.2453.确定P值、做出推论ν1=n1-1=10-1=9,ν2=n2-1=10-1=9,查F界值表(方差齐性检验用),得F0.05(9,9)=4.03,F<F0.05(9,9),P>0.05。在=0.05水准下不拒绝H0,认为中药组与西药组的血清胆固醇总体方差齐。二、独立样本t检验(一)应用条件:1.样本个体测量值相互独立,即独立性。2.两个样本所代表的总体均数服从正态分布,即正态性。3.总体方差相等,即方差齐性。(二)计算公式先求出合并方差,再求出两均数之差的标准误,最后算出统计量t值。(三)检验步骤1.建立假设、确定检验水准H0:μ1=μ2H1:μ1≠μ2α=0.052.选择检验方法、计算统计量本例n1=10,=5.247,s1=0.762;n2=10,=5.537,s2=0.683=0.5243.确定P值、做出推论ν=10+10-2=18,查t界值表,得t0.05,18=2.101,t<t0.05,18,P>0.05。按α=0.05水准,不拒绝H0。两药降低胆固醇效果的差别无统计学意义。三、t′检验成组样本均数的比较,若方差不齐,可以采取3种方式处理:①经过数据变换使方差齐,然后进行t检验;②采用近似t检验——t′检验;③基于秩次的非参数检验方法。例题:由X光片上测得两组病人肺门横径右侧距R1值(cm),结果如下,请先检验两组的总体方差是否相等,然后进行假设检验。肺癌病人矽肺0期病人(一)方差齐性检验1.建立假设、确定检验水准。H0:两总体方差相等H1:两总体方差不相等α=0.102.计算统计量F值F=s12(较大)/s22(较小)=1.792/0.562=10.273.确定P值,作出统计推论查F界值表,ν1=n1—1=9,ν2=n2—1=49,F0.1(9,50)=2.07。今F=10.217>F0.1(9,50),故P<0.1。按α=0.10水准,拒绝H0,接受H1,可认为两总体方差不齐。(二)t′检验的公式ν1=n1-1ν2=n2-1(三)t′检验的步骤1.建立假设、确定检验水准。H0:两总体R1值相等H1:两总体R1值不相等α=0.052.计算统计量查t值表得:t0.05/2,9=2.262t0.05/2,49=2.0093.确定P值,作出统计推论t′=3.272>t′0.05=2.257,P<0.05。按α=0.05水准,拒绝H0,接受H1,可认为两组病人的R1值不等。假设检验的两类错误和注意事项Ⅰ型错误——指拒绝了实际上成立的H0,即“弃真”的错误。在H0成立的前提下,由于抽样误差,得到的t>t0.05(ν),按α=0.05水准拒绝H0,则犯了Ⅰ型错误。确定以tα为临界值时,犯Ⅰ型错误的概率就是α。Ⅱ型错误——指接受了实际上不成立的H0,即“存伪”的错误。在实际上H1成立的前提下,由于抽样的偶然性得到了较小的t值,若t<t0.05(ν),则按α=0.05的水准接受H0,这就犯了Ⅱ型错误,Ⅱ型错误的概率用β表示。四、应用假设检验的注意事项1.事先进行严密的研究设计。2.预先确定单侧检验与双侧检验。3.灵活确定α水准。4.选择正确的统计方法。5.正确理解推断结论的意义。6.结论的描述应完整,不能绝对化。7.结合专业知识做出推论。方差分析方差分析——又称F检验或变异数分析。是在不增加第一类错误概率的情况下,用于检验多组样本均数差异有无显著性的统计分析方法。方差分析的应用:完全随机设计资料的单因素F检验;随机区组设计资料的两因素F检验;析因设计、拉丁方设计、嵌套设计、裂区设计、交叉设计资料的多因素方差分析;单因素重复测量、双因素重复测量资料的F检验;ANOVA与回归分析相结合的协方差分析。第一节F检验概述一、因素与水平因素——也称为处理因素。即对试验指标有影响的名义分类变量,在研究中加以考虑(控制)的试验条件。水平——也称“处理组”。是每个因素的不同状态,也就是质量上的或数量上的差别。因素是一个抽象的概念,而水平则是一个较为具体的概念。二、对多样本均数重复进行t检验的风险性当有多个均数比较时,例如有k组均数,采用多重t检验,会导致犯I类错误的机率增大。若要进行k个均数间差异的比较,将会使用m=k(k-1)/2次t检验。假定其检验的显著性概率水平为α’,则其实际上所执行的显著性概率水平为α=1-(1-α’)m例题:4个均数(k=4),完成所有4个均数间差异的显著性检验要进行m=(4)(4-1)/2=6次t检验。若在α’=0.05的显著性水平上进行检验,其实际上犯I类错误的概率α不是0.05,而是α=1-(1-0.05)6=0.2649。三、F检验的应用条件:1.各样本是相互独立的随机样本。2.各样本所来自的总体均服从正态分布。3.各样本所来自的总体方差相等,即方差齐。此外,样本均数比较的F检验方法与实验设计类型密切相关。四、F检验的基本思想——分析变异,即将所有测量值间的总变异按照其变异的来源分解为多个部分,通过比较不同来源的变异推断各处理组间的差异有无统计学意义。实质上是关于观测值变异原因的数量分析。例题:将40只接种肿瘤的小白鼠随机分为4组,给予不同剂量的三菱莪术注射液,半月后称量瘤重,其数据见下表。表中1组为接种后不加任何处理,2、3、4组分别为接种后注射0.5ml、1.0ml和1.5ml三菱莪术液。试比较各组瘤重间有无差别?三菱莪术液抑癌实验的小鼠瘤重(g) 实验号1组2组3组4组 13.63.00.43.324.52.31.71.295.02.62.11.2104.51.32.52.1 Σxi46.62524.618.7114.9(Σx) Σxi2226.3270.373.1447.03416.79(Σx2)ni1010101040(N)4.662.502.461.872.87()Si1.010.931.181.161.总变异——将4组综合起来看,40只小鼠的瘤重有差异,称为总变异,用总的离均差平方和表示。2.组间变异 从表中可见,4组小鼠瘤重的均数有差别,称为组间变异,用离均差平方和(SS组间)表示。造成组间变异的原因是:①处理差异:即药物及其不同剂量对瘤重有影响造成了各组均数不同。②个体差异:即小鼠的个体因素造成各组均数不同。式中i表示组别。3.组内变异从各组内部看,同一种处理的10只小鼠的瘤重仍有差异,称为组内变异,用组内离均差平方和(SS组内)表示。造成组内变异的原因只是个体因素。三种变异的关系:4.均方(MS)——由于离均差平方和并不能真正体现变异度,还应考虑其自由度,故可用SS与自由度之比值,即均方(MS)表示组间变异和组内变异。5.F值——检验均数是否存在处理差异时,可用MS组间与MS组内比值—F值判断。如无处理差异存在,造成组间变异和组内变异的原因均为个体差异,则理论上F=1。由于两者的计算途径不同,F值实际上不一定等于1,但不应过大。如果F值过大,大于F值的理论分布界值,即可认为存在处理差异。F检验的基本思想:把全部观察值之间的总变异,根据不同的设计分解成两个或多个部分,例如完全随机设计分解成组间和组内两部分,随机区组设计分解成处理组间、区组间和误差(相当于组内)三部分,求出反映各部分变异的指标MS及F值,然后根据F值与理论界值比较,在α水准上作出相应的统计学判断。第二节完全随机设计资料的F检验(单因素方差分析)完全随机设计——将全体观察对象按随机化方法分配到两组或多组中,每个观察单位接受每种处理的机会均等。本设计是一种单因素两水平或多水平的设计类型。因素可视为分组因素,水平可视为组数。单因素方差的计算公式 变异离均差平方和SS自由度df均方MSF N-1K-1N-k 1.建立假设检验2.计算统计量3.确定P值及统计推断F=12.99>F0.05(3,36)=2.86,P<0.05在α=0.05水平上拒绝H0,接受H1。可以认为4个剂量组小鼠的瘤重不同或不全相同。例题:三种不同给药方式测得食管癌患者肿物处放射性活度比较 静脉点滴PYM食管肿物处注入PYM食管肿物处注入PYM-CH合计 0.191.345.360.211.044.980.661.055.080.441.044.780.371.275.450.581.144.880.340.935.100.241.294.980.271.464.880.291.495.010.551.124.850.181.524.95N12121236∑X4.3214.4960.3079.11∑X21.847817.9433303.4516323.24271.建立假设检验2.计算统计量3.查表及统计推断F=2064.2786>F0.05(2,33)=3.285,P<0.05在α=0.05水平上拒绝H0,接受H1。可认为不同给药方式患者肿物处放射性活度不同。第三节随机区组设计资料的F检验(两因素方差分析)随机区组设计——在医学科研中较为常见,是通过分层将全部受试对象按某种或某些特征分为若干个区组,每个区组内研究对象的特征尽可能相近,每个区组内的观察对象与处理因素的水平数相等,分别使每个区组内的观察对象随机地接受处理因素某一水平的处理。随机区组设计包括:(1)对同一观察单位进行多次观察,同一观察单位的多次数据就成为一个配伍组。(2)同一样本给予不同处理的比较。(3)将条件相近的多个观察单位配成一组(配伍组),然后将每一配伍组的对象随机地分配到各处理组中。随机区组设计是双因素多水平的设计,它除了推断k个样本所代表的总体均数1,2,3,…是否相等外,还要推断b个区组所代表的总体均数是否相等。由于从总变异中分离出配伍组变异,考虑了个体变异对处理的影响,使误差更能反映随机误差的大小,提高了研究效率。 变异来源νMSSSF 总N-1处理间k-1配伍间b-1误差ν总-ν处-ν配例题:将36只雌性大白鼠按月龄相同、体重接近分为12个配伍组。并将每组三只大白鼠随机分到三个不同雌激素剂量组,经一段时间注射后的子宫质量如下表。问(1)接受不同剂量注射的大白鼠子宫质量是否相同?(2)不同配伍组间的大白鼠子宫质量是否相同? 区组 剂量(mg/100g) 合计 0.2 0.4 0.8 1 83 100 109 292 2 64 78 111 253 3 69 79 149 297 4 54 78 138 270 5 87 95 128 310 6 59 85 154 298 7 70 70 117 257 8 64 96 117 277 9 59 110 123 292 10 65 111 128 304 11 58 84 149 291 12 62 106 114 282 合计 794 1092 1537 34231.建立假设、确定检验水准2.计算统计量ν误差=ν总-ν处-ν配=35-2-11=223.确定P值、统计推断(1)F处理=53.48>F(2,22)=3.44,P<0.05,在α=0.05水平上拒绝H0,接受H1,可以认为注射不同剂量雌激素后大鼠子宫质量不同或不全相同。(2)F配伍=0.49<F(11,22)=2.26,P>0.05,在α=0.05水平上不拒绝H0,尚不能认为不同区组的大鼠子宫质量不同。第四节多个样本均数间的多重比较F检验结果若为拒绝H0,接受H1,则可认为所比较的各组总体均数不等或不全相等,但不能认为每两个总体均数之间都不相等。如需进一步了解哪两个总体均数不等,哪两个总体均数相等,可进一步作多个样本均数间的两两比较,又称多重比较。多重比较分为两种情况:一种是每两组之间均需比较;另一种是多个实验组与一个对照组比较,实验组间无须比较。多组均数间的两两比较的方法较多,本节介绍每两组之间均需比较的方法--q检验,又称SNK法。Q检验的计算公式分子为比较的两个均数的差,MS组内为F检验中的组内均方,如为随机区组设计资料,则用MS误差。nA与nB为比较的两个样本的观察例数。例题:1.建立假设、确定检验水准H0:μA=μBH1:μA≠μBα=0.052.将样本均数从大到小重新排列组次1234均数4.662.502.461.87组别12343.计算q值分母(两均数之差标准误)本例ni相等,故可先求出。 前已求得MS组内=1.157,代入公式求q值分母,得=0.344.列出计算表列出对比组(A与B),求出两均数之差、组数(a)及q值,并将q界值和p值一并列表。在确定临界值时,将被比较的两个均数在k个均数间的跨距作为一个参数记为a(组数)。确定不同跨距情况下均数间差异比较的临界值。q检验中用所要的临界值不是惟一值,而是多个值,在整体原假设基础上对I型错误α实施了控制。结果:经q检验显示,3个药物组与对照组的瘤重均数比较,P<0.05,差别均有显著性;3个药物组之间的瘤重比较,P>0.05,差别无显著性。药物有抑制肿瘤生长的作用;而3个剂量组之间瘤重均数差别则无显著性。第五节重复测量资料的F检验重复测量资料——同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析该观察指标在不同时间点上的变化特点。由于同一受试对象不同时间的数据间往往有一定的相关关系,而且时间间隔(或部位)越接近,相关关系越密切。因此重复测量资料的F检验与随机区组设计的F检验不同。例题:为了对比某种药物的胶囊型(k=1)和片剂型(k=2)在体内的代谢速度,将16名受试对象随机等分成两组,每组8人。一组给予胶囊,另一组给予片剂,分别在服药后1、2、4、6及8h测定血中的药物浓度。重复测量资料和随机区组设计资料的区别:⑴重复测量资料中同一受试对象(看成区组)的数据高度相关,无论哪位受试对象服用片剂或是胶囊,其服药后1h、2h、4h、6h和8h的血药浓度均和前面时间点的血药浓度相关。⑵重复测量资料中的处理因素在受试对象间为随机分配,但受试对象内的各时间点往往是固定的,不能随机分配;随机区组设计资料中每个区组内的受试对象彼此独立,处理只在区组内随机分配,同一区组内的受试对象接受的处理各不相同。一、离均差平方和与自由度的分解两因素重复测量资料(1)横向分组的受试对象间的变异。分为处理因素K(在此为剂型)的变的总变异包括:异和个体间误差的变异两部分(2)纵向分组的受试对象内的变异。分为时间因素I的变异、处理K和时间I的交互作用(KI)以及个体内误差的变异三部分。计算公式:SS总=SS受试对象间+SS受试对象内=(SS处理+SS个体间误差)+(SS时间+SS处理与时间交互+SS个体内误差)ν总=ν受试对象间+ν受试对象内=(ν处理+ν个体间)+(ν时间+ν处理与时间交互+ν个体内)1.建立检验假设、确定检验水准处理因素KH0:不同剂型(片剂和胶囊)的血药浓度相同H1:不同剂型(片剂和胶囊)的血药浓度不同α=0.05。时间因素IH0:服药后不同时间血药浓度的总体均数全相等H1:服药后不同时间血药浓度的总体均数不全相α=0.05。交互作用KIH0:药物剂型K和时间I无交互效应H1:药物剂型K和时间I有交互效应α=0.05。2.选择检验方法、计算统计量3.确定P值、做出推论以求F值时的分子自由度νl、分母自由度ν2查附表5的F界值表得相应P值,或直接由计算机所给P值做出推断结论。本例按0.05水准,药物剂型K,剂型K与时间I的交互效应KI均不拒绝H0,无统计学意义,还不能认为药物不同剂型的血药浓度不同,也还不能认为剂型K与时间I间有交互效应。而时间因素I拒绝H0,接受H1,差异有显著的统计学意义,可认为服用药物后不同时间(1h、2h、4h、6h和8h)的血药浓度不同或不全相同。分类变量资料的统计描述分类变量资料——是按研究对象的性质、类别或等级分组,清点各组观察单位的数目得到的资料。绝对数——又称总量指标。是指某现象实际发生的绝对水平,表示被描述对象的规模。是制定、总结工作和进行科学研究时不可缺少的基本数据。如某病的病人数、治愈人数、死亡人数等。相对数——表示两个有联系的指标之比。从数量上反映两个相互关联现象之间的对比关系或联系强度,有助于分析和阐明研究现象的规律性。示事物出现的程度;将绝对数指标转换成基数相同的相对数指标(如每千人发病人数、每百例患者病死人数等),便于相互比较。第一节相对数的种类常用的相对数有:率、构成比、相对比一、率(rate)概念:也称强度相对数,是指某种现象在一定条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比。用以说明某种现象发生的频率、强度和普遍程度。计算公式:医学上常用的率:发病率、患病率、感染率、死亡率、病死率、治愈率、有效率、生存率等。1.发病率——表示在一定期间内一定人群中发生某病新病例的频率。(1)发病时间:出现客观指标或确诊的日期。(2)分子为病例数。(3)时间单位一般为一年。(4)分母是指可能发生该病的人群,但实际工作中常以平均人口数代之。2.患病率——也叫现患率。指某特定时间内现有某病病例数与同期人口数之比。按观察时间的不同分为时点患病率和期间患病率,以前者常用。(1)期间患病率等于某期间开始时的患病率加上该期间的发病率。(2)在人口相对稳定时,某病的发病率升高,则患病率也升高;病程延长,患病率也升高;疾病恢复快或死亡快,则患病率降低。(3)患病率常用于表示病程较长的慢性病的发生或流行情况。如糖尿病、肺结核等。例题:某医院03年在某城区随机调查60岁以上老年人858例,发现高血压病人282例。该城区60岁以上老年人高血压患病率为:(282/858)×100%=32.87%3.死亡率——表示在一定期间(一般为一年)的一定人群中,死亡的频率。(1)分子为死亡总数算出的率叫粗死亡率;分子为因某病死亡的总数算出的率称某病死亡率。(2)常以年为时间单位,分母可用年中人口数或年初与年终人口数的平均值。(3)用于衡量某一时期一个地区人群的死亡危险性大小。动态观察可反映某地不同时期人群健康状况和卫生保健水平。4.病死率——表示一定时期内(通常为一年),患某病的全部病人中因该病而死亡的频率。受疾病严重程度、早期诊断水平和医院治疗水平的影响。(1)反映疾病的严重程度和医疗水平。(2)多用于急性传染病。5.生存率——指在患某病的人或接受某种治疗的病人中,随访满n年(通常为1、3、5年)仍存活的病人数所占的比例。(1)反映疾病的严重程度。(2)常用于评价肿瘤,心血管病等慢性病的远程疗效。二、构成比(constituentratio)概念:也叫构成指标,是指事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总和之比。用以说明某一事物内部各组成部分所占的比重或分布;也可以比较2个以上相同性质的事物各自比重的变化情况。计算公式:构成比=特点:1.各组成部分的构成比之和为100%。2.某一部分比重增大,则其它部分相应减少。例题:133例崩漏患者中医辩证分型情况某中医院2002年与2003年各科病床构成比证型例数百分比(%)科别2002年2003年肾虚型4130.83病床数(%)病床数(%)肝虚型129.02内科10033.3320050.00肝郁型3123.31外科10033.3310025.00血虚型4936.84传染科10033.3410025.00合计133100.00合计300100.00400100.00三、相对比(relativeratio)概念:也称比例相对数。是指两个有联系的指标之比。说明两指标的比例关系,以倍数或百分数表示。计算公式:相对比=A/B(或×100%)式中A、B分别表示两个总量指标。A、B可以相同,也可以不同,可以是绝对数、相对数,也可以是平均数。例题:某市1990年12岁以下儿童乙肝病毒携带率为2.72%,2000年乙肝病毒携带率为0.52%,计算相对比。相对比=2.72%/0.52%=5.23或相对比=(0.52%/2.72%)×100%=19.12%提示该市1990年12岁以下儿童乙肝病毒携带率为2000年的5.23倍,或2000年12岁以下儿童乙肝病毒携带率为1990年的19.12%。第二节应用相对数的注意事项1.正确区分率和构成比:构成比是对已有的观察结果分类。率则是在未知观察结果的情况下先确定观察对象的范围,再将观察对象按某种性质或特征分组,统计各组的阳性数,然后计算出各组的频率。例:某年某地白内障患者患病情况年龄人数病例比(%)率(%)40~5606815.1812.1450~44112928.7929.2560~29613530.1345.6170~1499721.6565.1080~22194.2586.36合计1468448100.0030.52例题:在进行某遗传病的研究中,一研究人员发现,在该病患者中,90%是第一个孩子,由此可见该病的遗传与出生顺序有关,更容易遗传给第一个孩子。这个结论是否正确,为什么?2.计算相对数时分母不能太小一般地说,样本含量较大,计算的相对数可靠性也较高。当观察例数<10例,会使相对数波动较大,最好用绝对数表示。在进行动物实验时,由于通过周密设计可以严格控制实验条件,每组用10只动物得出的结果也能计算相对数。3.正确计算合计率对分组资料计算合计率(或称平均率)时,不能简单地由各组率相加或平均求得,而应用合计的实际数字进行计算。若P1=x1/n1,P2=x2/n2,P3=x3/n3。P=(x1+x2+x3)/(n1+n2+n3)(正确)。P=(P1+P2+P3)/3(错误)例题:用某疗法治疗肝炎,甲医院治疗150例,治愈30例,治愈率为20%;乙医院治疗100例,治愈30例,治愈率为30%。两个医院合计治愈率应该是[(30+30)/(150+100)]×100%=24%。若计算为20%+30%=50%或(20%+30%)/2=25%,则是错的。4.注意资料的可比性在比较相对数时,除了要对比的因素(如不同的药物)外,其余的影响因素应尽可能相同或相近。如研究方法相同、研究对象同质、观察时间相等;若分组遵循随机的原则;不同地区比较时,民族、年龄、性别构成相等,周围环境、风俗习惯和经济条件一致或相近;对比不同时期资料应注意诊断标准一致、医疗条件相同。若要比较的两组以上资料内部构成不同,需要采用率的标准化法。5.样本率(或构成比)的比较应进行差别的假设检验由于抽样误差的存在,不能仅凭样本率(或构成比)数字表面相差大小下结论,应进行差别的显著性检验。第三节率的标准化率的标准化——采用统一标准计算各率的标准化率,使各率具有可比性,目的是在比较总率时消除混杂因素(即内部构成不同)的影响。1.选取标准选择具有代表性的、较稳定的数量较大的资料为标准。如全世界、全国或本地区范围较大人群作为标准最好。实践中常用标化组的合计作为标准。2.根据现有数据计算标准化率结果:西医疗法组标化治愈率:P=(109/320)×100%=34.1%中西医结合疗法组标化治愈率:P=(121/320)×100%=37.8%标化后,显示西医疗法的治愈率比中西医结合疗法低。第七章总体率的估计一、率的标准误——即样本率的标准差,它不但反映样本率间的离散程度,也反映样本率与相应总体率间的差异,因而说明了率的抽样误差大小。其统计符号为:式中π为总体阳性率(总体中某现象的发生率),1-π为总体阴性率,n为样本例数。估计标准误——实际工作中,π往往未知,常以p代替,得出的标准误称估计标准误。式中p为样本阳性率,1-p为样本阴性率,n为样本例数。例题:1.用某方药治疗慢性肝炎160例,有效率为86.25%,求其标准误。本例n=160,p=0.8625,1-p=1-0.8625=0.1375,2.某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松者322人,患病率为41.5%,试估计该样本频率的抽样误差。本例n=776,p=0.415,1-p=1-0.415=0.585,二、总体率的估计点估计——是以样本频率或样本率加减标准误的方式(p±sp)给出总体概率的点估计值。例题:某医院辨证治疗银屑病100例,临床治愈32例,治愈率为32.0%,总治愈率为32.0%或32.0%±5.0%。区间估计——常用样本频率及其标准误估计总体概率的CI。根据样本含量和样本频率p的大小,可采用正态近似法和查表法计算总体概率的CI。1.正态近似法:当样本含量n>50,且样本频率不接近0和1时,如np与n(1-p)均大于5,样本频率的抽样分析近似满足正态分布,可用正态近似法。总体概率1-α的CI为:p±uαsp例题:某医师用自拟中药方治疗高血压患者107例,有效69例,有效率为64.49%。试估计该中药方总体有效率95%的CI。本例:n=107>50,p=0.6449,u0.05=1.96,sp==0.046395%CI=0.6449±1.96×0.0463=(0.5542,0.7356),故自拟中药方治疗高血压有效率的95%CI为(55.42%,73.56%)。用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该乳腺癌总体检出率的99%置信区间。本例:n=120>50,p=0.7830,u0.01=2.58,sp==0.037499%CI=0.7830±2.58×0.0374=(0.6865,0.8795),故该乳腺癌总体检出率的99%CI为(68.65%,87.95%)。2.查表法——当样本含量n≤50,且样本频率接近0或1时,率的抽样分布服从二项分布,因计算π的可信区间比较繁琐,可用查表法。根据“附表3百分率的可信区间”直接用样本含量n及阳性数x查表,即得总体率95%或99%的CI。例题:某医院辨证治疗硬皮病25例,临床治愈13例,治愈率为52%。试估计其总体率及95%CI。本例:n=25,x=13,查百分率的可信区间表,得:95%CI=(31,72)。中医药辨证治疗皮痹治愈率的点估计为52%,其95%CI为31%~72%。注意:附表3的值仅列出x≤n/2的数,若x>n/2时则无法直接查得。可用反推法,以(n-x)的值(阴性数)查表,然后以100减去查得的数值即为所求的CI。例题:某医院用中药治疗脑血管梗塞患者40例,其中33例治疗有效,有效率为82.5%。试估计其总体率95%的CI。本例n=40,x=33>40/2,故以x=40-33=7查附表3得:95%CI=(8,33)。将其上、下限分别用100相减,得:100-8=92,100-33=67,反推结果为:95%CI=(67,92)。该中药治疗脑血管梗塞有效率的95%CI为(67%,92%)。χ2检验χ2检验——也称卡方检验。是英国统计学家Pearson于1900年提出的一种应用范围很广的假设检验方法,可用于检验两个率间的差异;检验多个率(或构成比)间的差异;判断两种属性或现象间是否存在关联性;了解实际分布与某种理论分布是否吻合;判断两个数列间是否存在差异等。第一节χ2检验的基本思想一、χ2分布及特点χ2分布的分布规律——由n个服从标准正态分布的随机变量的平方和构成一新的随机变量。参数n称为自由度,用希腊字母ν表示。χ2检验的ν取决于可以自由取值的格子数目,而不是n。χ2分布的特点:⑴χ2分布的形状依赖于ν的大小:当ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称;当ν→∞时,分布趋近于正态分布。⑵χ2分布具有可加性:如果两个独立的随机变量X1和X2分别服从ν1和ν2的χ2分布,那么它们的和(X1+X2)也服从(ν1+ν2)的χ2分布。不同自由度的χ2分布曲线图χ2界值:ν确定后,如果分布曲线下右侧尾部的面积为α时,则横轴上相应的χ2值就记作χ2α,ν,即χ2界值。其右侧部分的面积α表示:自由度为ν时,χ2值大于界值的概率大小。χ2值与P值的对应关系见χ2界值表(附表6)。χ2值愈大,P值愈小;反之,χ2值愈小,P值愈大。二、χ2检验的基本思想例题:某中医院将112例急性肾炎病人随机分为两组,分别用西药和中西药结合方法治疗,结果见下表,问两种方法的疗效有无差别?两种方法治疗急性肾炎的结果 组别 治愈例数 未愈例数合计治愈率(%) 西药 43(47.5) 13(8.5)5676.79 中西结合合计 52(47.5)95 4(8.5)5692.861711284.82χ2检验的计算公式TRC=(nR·nC)/n式中A为实际频数;T为理论频数,是按无效假设两总体率相等时算出的;TRC表示R行C列格子的理论频数;nR为第R行的合计数;nC为第C列的合计数;n为总例数;R为行数;C为列数。PC=a+c/n=43+52/112=0.8482T11=(a+b)×PC=(a+b)×(a+c)/n=56×95/112=47.5,T12=(a+b)×(1-PC)=(a+b)×(b+d)/n=56×17/112=8.5T21=(c+d)×PC=(c+d)×(a+c)/n=56×95/112=47.5,T22=(c+d)×(1-PC)=(c+d)×(b+d)/n=56×17/112=8.5χ2检验的基本思想:χ2检验实质上是检验A的分布与T的分布是否吻合及吻合的程度,χ2越小,表明实际观察次数与理论次数越接近。若检验假设成立,则A与T之差不会很大,出现大的χ2值的概率P是很小的,若P≤α,就怀疑假设成立,因而拒绝它;若P>α,则没有理由拒绝它。χ2检验的自由度:χ2值的大小,除决定于A-T的差值外,还与格子数(严格地说是自由度)的多少有关,故在查χ2界值表时要考虑自由度的大小。ν=(R-1)(C-1) 第二节四格表资料的χ2检验一、四格表资料的模式四格表资料——对于完全随机设计的两组资料,如果其结果是两分类变量,通常可列成下表的形式。由于a、b、c、d4个数据是表格中的基本数据,其余数据都可从这4个数据推算出来。四格表资料的模式 分组 + - 合计 甲组 a b a+b 乙组 c d c+d 合计 a+c b+d n二、用基本公式求χ2值应用条件:n≥40,且四个格子的T≥5。1.建立假设、确定检验水准H0:π1=π2;H1:π1≠π2;α=0.052.选择检验方法、计算统计量3.确定P值、做出推论ν=(2-1)(2-1)=1,χ20.05,1=3.84。本例χ2>χ20.05,1,则P<0.05。按α=0.05水准,拒绝H0,接受H1,可认为两种方法的总治愈率不等。三、用四格表专用公式求χ2值式中a、b、c、d分别为四格表的4个实际频数,总例数n=a+b+c+d,(a+b)、(c+d)、(a+c)和(b+d)为各行和各列的合计数。四、四格表资料χ2值的校正应用条件:n≥40,但有1≤T<5。例题1:某医师将门诊的偏头痛病人随机分为两组,分别采用针灸和药物两种方法治疗,结果见下表,问两种疗法的有效率有无差别?两种疗法对偏头痛的治疗结果 疗法 有效例数 无效例数 合计 有效率(%) 针灸 33(30.15) 2(4.85) 35 94.29 药物 23(25.85) 7(4.15) 30 76.67 合计 56 9 65 86.151.建立假设、确定检验水准H0:π1=π2,H1:π1≠π2;α=0.052.选择检验方法、计算统计量T11=35×56/65=30.15,T12=35-30.15=4.85,T21=56-30.15=25.85,T22=9-4.85=4.15。3.确定P值、做出推论ν=(2-1)(2-1)=1,χ20.05,1=3.84,本例χ2<χ20.05,1,则P>0.05。按α=0.05水准不拒绝H0,故尚不能认为两种疗法治疗偏头痛的有效率有差异。若不对本例χ2值进行校正,则χ2=4.204,会得出两种疗法治疗偏头痛的有效率有差异的结论。五、四格表的确切概率法——即Fisher确切概率法,也称四格表直接计算法。是对两个小样本或样本率偏小(或偏大)的资料进行比较的统计分析方法。(一)适用条件:在四格表资料中,当出现下列情况之一时,应选用四格表的确切概率法。1.n<402.有A=03.有T<14.用其它检验方法所得P接近α。(二)具体方法:在四格表周边合计数不变的条件下,变动四格表中的各格数值,得到四个数据各种组合之变动四格表;计算各表的│A-T│值;用公式直接计算│A-T│≥原表│A-T│的各四格表之概率;按检验假设取单侧或双侧求累计概率,与检验水准比较作出推断。计算公式:式中a、b、c、d和n的意义同前,!为阶乘符号。0!=1,1!=1,3!=3×2×1=6。(三)求P值的步骤1.列四格表。使四格表周边合计数不变,依次增减四格表中任一格子的数据,列出所有可能的四格表。列四表格的数量=最小合计数+1。如例题2,增减a格的数据,得9个四格表。2.计算各表格的│A—T│。在四格表资料中,各格子的│A—T│相等,故计算某一四格表资料的│A—T│时,只需计算表中任一格子的│A—T│即可。3.计算P值⑴双侧检验时,需分别计算两侧所有│A—T│等于及大于原表│A—T│的各四格表的P值,然后相加,即双侧检验的P值。若两样本含量相等,两侧表格对称,则只计算一侧的累积P值,再乘以2即可。⑵单侧检验时,只计算一侧的所有│A—T│等于及大于原表│A—T│的各四表格的P值,然后相加,即单侧检验的P值。例题2:某医院将24例乙型脑炎重症病人随机分为两组,用同样的中药方治疗,但其中一组加一定量的人工牛黄,另一组不加,结果如表8-4,问人工牛黄能否增强乙脑方剂的疗效?两法治疗乙型脑炎重症患者的疗效 治疗方法治愈未愈合计 乙脑方5712 乙脑方+牛黄11112 合计16824[1]建立假设、确定检验水准H0:π1=π2;H1:π1≠<π2;α=0.05[2]选择检验方法、计算统计量本例n<40,宜用四格表的确切概率法。按公式例题1求T,结果见下表括号内数字。列出周边合计数不变的各种组合之四格表,共9个,并计算│A-T│。[3]确定P值、做出推论本例是推测加入人工牛黄的疗效是否高于不加人工牛黄组,属于单侧检验。P=P(1)+P(2)=0.0007+0.0129=0.0136按α=0.05水准拒绝H0,接受H1。认为加入人工牛黄能增强乙脑方剂的疗效。第三节配对四格表资料的χ2检验一、配对四格表资料的模式若配对设计的两分类变量,每对受试对象分别接受甲、乙两种处理,或同一样品经甲、乙两法检测,每一对子的计数情况有4种可能:即甲+乙+、甲+乙-、甲-乙+、甲-乙-。可将其排成下表的形式。配对四格表资料的模式 甲法 乙法 合计 +- + a b a+b - c d c+d  合计 a+c b+d n例题3:用两种方法检查已确诊的乳腺癌病人120例,检查结果如下表,问两种检查方法何者为优?两种方法检查乳腺癌的结果 甲法 乙法 合计 +- + 42 18 60 - 30 30 60 合计 72 48 120基本思想:P甲=a+b/n,P乙=a+c/n,π甲=A+B/N,π乙=A+C/N优势性χ2检验,假设是甲法优于乙法的例数与乙法优于甲法的例数相等。不考虑两法均为阳性和均为阴性的例数(a与d),只比较两法相异的例数(b与c),通过检验其差别有无显著性来推断优势性。计算公式:(1)当b+c>40时,χ2=(b-c)2/(b+c)(2)当b+c≤40时,χ2=(︱b-c︱-1)2/(b+c)1.建立假设、确定检验水准H0:B=CH1:B≠Cα=0.052.选择检验方法、计算统计量本例b+c=18+30=48>40;χ2=(b-c)2/(b+c)=(18-30)2/(18+30)=3.003.确定P值、做出推论ν=1,查χ2界值表,得χ20.05,1=3.84,本例χ2<χ20.05,1,P>0.05;按α=0.05水准,不拒绝H0,尚不能认为两种方法检出率有差别。注意:该法适用于样本含量不是很大的资料。因为本法仅考虑了两种处理结果不一致的情况(b,c),而未考虑样本含量n和两种处理结果一致的情况(a,d)。当n很大且a和d的数值也很大(即两种处理方法的一致率较高),b和c的数值相对较小时,即使是检验结果有统计学意义,其实际意义往往也不大。第四节行×列表资料的χ2检验一、行×列表资料及其χ2值的计算公式若行数和(或)列数>2的表格称行×列表,简记为R×C表。R×C表资料的χ2检验用于多个率或构成比的比较。行×列表资料的三种情况:①多个样本率比较时,有R行2列,称为R×2表;②两个样本的多个构成比的比较,有2行C列,称为2×C表;③多个样本的构成比比较,以及双向无序分类资料关联性检验时,有R行C列,称为R×C表。计算公式:R×C表资料χ2检验的基本思想和步骤与四格表资料χ2检验相同,χ2值可按之前公式计算,但因计算各格子的理论频数TRC,较为繁琐,用其专用公式计算更为简便。二、多个样本率比较的χ2检验用于R≥3、C=2,描述多个率的R×2表资料。例题4:某中医师用甲、乙、丙3种中药方治疗胆结石,结果如表,试比较3种中药方的疗效。三种中药方治疗胆结石的结果 药方 有效例数 无效例数 合计 率(%) 甲 56 6 62 90.32 乙 41 16 57 71.93 丙 37 18 55 67.27 合计 134 40 174 77.011.建立假设、确定检验水准H0:π1=π2=π3;H1:π1、π2、π3不等或不全相等;α=0.052.选择检验方法、计算统计量3.确定P值、做出推论ν=(3-1)(2-1)=2,χ20.05,2=5.99,本例χ2>χ20.05,2,P<0.05;按α=0.05水准,拒绝H0,接受H1。可认为3种中药方治疗胆结石的效果不同或不全相同。三、多个样本构成比比较的χ2检验例题5:某医师将199例消化性溃疡病人随机分为3组,比较4种治疗方案的效果。为避免中医不同证型对结果的影响,试分析3组病人按中医辩证分型的构成比有无差别?3组消化性溃疡病人四种证型的构成 组别 肝胃不和 胃阴不足 脾胃虚寒 寒热夹杂 合计 生胃宁素片 7 15 29 37 88 中药 4 12 16 19 51 西药 3 5 15 37 60 合计 14 32 60 93 1991.建立假设、确定检验水准H0:3组病人中医各证型的构成比相同;H1:3组病人中医各证型的构成比不同或不全相同;α=0.052.选择检验方法、计算统计量3.确定P值、做出推论ν=(3-1)(4-1)=6,χ20.05,6=12.59,本例χ2<χ20.05,6,P>0.05。按α=0.05水准,不拒绝H0,可认为3组消化性溃疡病人中医各证型的构成比相同。四、双向无序分类资料关联性的R×C表χ2检验两个分类变量均为无序分类变量的行×列表资料称为双向无序R×C表资料,χ2检验可用于分析这类资料的相关关系。例题6:某研究者测得某地1987人的ABO血型和MN血型分布,结果见下表,问两种血型系统之间是否有关联?某地1987人的不同血型分布1.建立检验假设、确定检验水准H0:两种血型系统间无关联;H1:两种血型系统间有关联;α=0.052.选择检验方法、计算统计量3.确定P值,做出推论ν=(R-1)(C-1)=(4-1)×(3-1)=6,查χ2界值表,得χ20.05,6=12.59,本例χ2>χ20.05,6,P<0.05。按α=0.05水准,拒绝H0,接受H1,差异有统计学意义,提示两种血型系统间有关联。五、行×列表资料χ2检验的注意事项1.要求T不宜太小。R×C表资料中各格的T不应小于1,并且1≤T<5的格子数不宜超过总格子数的20%。否则,可以:①增大样本含量,以增大T后再计算χ2值;②根据专业知识,删去T太小的行或列,或者与相邻行(或列)合并,但这样会损失信息,损害样本的随机性;③改用双向无序R×C表资料的Fisher确切概率法。2.多个样本率(构成比)比较,P<0.05时:若所得的结论为拒绝检验假设,只能认为各总体率(或构成比)之间总的来说有差别(即不等或不全相等),但不能说明它们彼此之间都有差别,或某两者之间有差别。要进一步推断哪些总体率(构成比)之间有差别,需进一步做多个样本率(构成比)的多重比较。3.对于单向有序R×C表资料的统计分析R×C表资料,当效应按强弱(或优劣)分为若干等级,如分为-、+、++、+++、++++或治愈、显效、有效、无效、恶化、死亡时,因为效应等级是按照顺序排列的,属于单向有序行×列表。若比较各处理组的效应有无差异,宜选用秩和检验。4.对于双向有序且属性不同的R×C表资料的统计分析如推断“年龄与疗效”、“病程与疗效”、“疗程与疗效”是否有关系及相关的密切程度等。由于两个变量均有序,但属性不同,可用等级相关分析或线性趋势性检验。5.对于双向有序且属性相同的R×C表资料的统计分析如用两种方法检测同一批糖尿病患者的尿糖,结果均用-、+、++、+++和++++表示。要了解两种方法的检测结果是否一致,由于两种方法的检验结果均有序,且属性相同,分析时要用Kappa检验。第五节多个率或构成比的多重比较对R×C表资料作χ2检验,得P<α时,需进一步作多个率(或构成比)的多重比较。如果用多次四格表资料的检验将会加大犯I型错误的概率。若要解决此问题,需进一步作多个率(或构成比)的多重比较。多个样本率(构成比)比较的检验结果为拒绝检验假设,若直接用分割法把原表分成多个独立的2×2表进行两两比较,会增加犯I型错误的概率。为了保证检验假设中I型错误α的概率不变,必须重新规定检验水准。新的检验水准:分析k个处理组间任意两组有无差别,根据排列组合的规律,须进行Cn2次独立的四格表χ2检验,再加上总的R×C表资料的χ2检验,则总共需要进行Cn2+1次检验。如果要保证犯I型错误α的概率不变,则每次假设检验的例题7:对例题43种药方治疗胆结石的效果作R×C表χ2检验,计算χ2=9.983,ν=2,结果为拒绝H0,接受H1,差异有统计学意义,提示3种药物的有效率总的来说有差别。现在推断是否任意两种药物的有效率均有差别?⑴建立检验假设、确定检验水准H0:任意两种药物的总体有效率相同,即πA=πB;H1:任意两种药物的总体有效率不同,即πA≠π2;α=0.05本例为3个处理组间的任意两组进行比较,⑵选择检验方法、计算统计量根据分割法可将原表分割为3个独立2×2表,分别用检验基本公式计算值,结果见表。⑶确定P值、做出推论按=0.0125检验水准,甲方与乙方组、甲方与丙方组比较拒绝H0,接受H1,差异有显著的统计学意义,提示甲方与乙方、丙方的总有效率有差别;而乙方与丙方组比较不拒绝H0,差异无统计学意义,尚不能认为它们的总有效率有差别。秩和检验第一节非参数检验概述参数检验——对已知并满足其应用条件分布的总体参数进行估计或检验的统计推断方法。一、非参数检验概念:是一类不依赖总体分布的具体形式,也不对参数进行检验,而是对总体分布的形状或位置进行检验的统计推断方法。特点:1.对资料的分布无特殊要求。2.用于不能或未加精确测量的资料。3.某些非参数方法计算简便。4.检验效率较低。方法:1.秩和检验2.Ridit分析3.中位数检验4.游程检验5.符号检验二、秩和检验的概念和基本思想概念:秩次指全部观察值按某种顺序排列的位序;秩和是同组秩次之和。秩和检验是以秩和作为检验统计量、效率较高的非参数检验方法。基本思想:先将原始资料在不分组别的情况下从小到大排顺序(编秩),然后分组将所编的秩次相加(求和)。如果相比较组之间的秩次之和(秩和)十分接近,则认为各组间没有差别;如果相比较组之间的秩和相差悬殊,则认为各组间存在差别。第二节配对设计资料的符号秩和检验配对设计资料的符号秩和检验又称Wilcoxon符号秩和检验,主要用于观察指标不属于正态分布或不能准确测定(如带有一定的主观性评分结果)的配对设计资料。一、方法与步骤例题1:某中医院用平肝潜阳法辨证施治高血压病人10例,治疗前后舒张压(kPa)变化见下表,比较治疗前后舒张压变化差别有无显著性?平肝潜阳法治疗高血压病人秩和检验计算用表病例号治疗前治疗后差值d秩次l15.315.5-0.2-1.0214.712.02.76.0317.214.42.87.0414.511.72.88.0514.712.32.45.0615.512.03.59.0715.514.70.82.5815.516.3-0.8-2.5916.011.74.310.01013.912.81.14.01.建立假设、确定检验水准H0:治疗前后舒张压无变化,差值的总体中位数为0;H1:治疗前后舒张压有变化,差值的总体中位数不为0。α=0.05(双侧)2.编秩求和、计算统计量T(1)依差值绝对值从小到大编秩,并标上差值的正负号。如有差值绝对值相同而符号不同者,则取其平均秩次。若差值绝对值相同,而符号也相同者,顺次编。对差值为0的对子舍去,总的对子数n也要相应减去。(2)分别求正负秩次之和T+与T—。T+=2.5+4+5+6+7.5+7.5+9+10=51.5;T—=1+2.5=3.5。正、负秩和相加等于总秩和,即T++T—=(n+1)n/2。(3)双侧时,以绝对值较小者作为统计量T值;单侧时任取一值作为检验统计量T值。本例T=3.5,n=103.确定P值、做出推论(1)当n≤50时,查T界值表。若检验统计量T值在界值范围内,则P值>表上方相应概率水平;若T值在界值范围外,则P值<相应的概率水平。本例n=10,T=3.5,用n=10,α=0.05(双侧),查T界值表,得T0.05/2,10=8~47,未包括检验统计量T值,所以P<0.05。按双侧0.05水准拒绝H0,接受H1,提示用平肝潜阳法辨证施治高血压病人前后舒张压变化的差别有统计学意义。(2)若n>50,超出T界值表的范围,可用u检验。二、基本思想假定从一总体中随机抽取一个样本,按例题1的方法步骤,可求出T+、T—。当重复所有可能组合的样本,得秩和T+(或T—)的分布。T的分布为以均数为中心对称的非连续分布。当H0成立,从总体随机抽取任一个样本,所得T值在均数为n(n+1)/4附近的概率最大,而T值远离均数的概率较小。随着n增大,T的分布逐渐逼近均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布,当n>25时,T的分布已较好地近似正态分布。由于存在抽样误差,T应接近n(n+1)/4。T愈小,T与n(n+1)/4的差距越大,相应的P值就愈小。当P≤α时,拒绝H0。第三节完全随机设计两样本比较的秩和检验进行完全随机设计的两组数值变量资料和两组有序分类变量资料的比较时,若两个样本总体不能满足正态性和方差齐性的要求,可采用WilcoxonMann-Whitneytest进行两样本比较的秩和检验。目的是比较两样本分别代表的总体分布位置是否相同。一、基本思想将两组混合编秩,分组求秩和。如果H0成立,两样本来自分布相同的总体,则两样本的平均秩次T1/n1与T2/n2应相等或接近,且都与总体的平均秩次(n+1)/2相差很小。含量为n1样本的秩和T1应在n1(n+1)/2〔T值表范围中心〕的左右变化,发生T值偏离此值太远的可能性就很小。若偏离出给定α值所确定的范围,即P<α时,拒绝H0。二、方法与步骤(一)两组数值变量资料的秩和检验例题2某医院用肺炎散和十枣汤分别治疗两组小儿肺炎,治疗后患儿体温降至正常所需天数见下表,试比较两组患儿用药后体温降至正常所需天数差别有无显著性意义?肺炎散和十枣汤治疗小儿肺炎秩和检验计算用表 肺炎散 十枣汤 降温天数 秩次 降温天数 秩次 2 1.0 3 2.0 4 3.5 4 3.5 5 5.5 5 5.5 6 7.0 7 9.0 6 8.0 8 11.0 8 11.0 8 11.0 9 13.0 10 15.0 10 15.0 10 15.0 11 17.5 11 17.5 12 19.0 n1=9 T1=81.5 n2=10 T2=108.51.建立假设、确定检验水准H0:两组患儿体温降至正常所需天数的总体分布相同;H1:两组患儿体温降至正常所需天数的总体分布不同。α=0.05(双侧)2.编秩求和、计算统计量T⑴编秩次将两组观察值从小到大混合、统一编秩。观察值相同且在不同组者取平均秩。观察值相同在同一组中者,不必算平均秩,顺次编。⑵求各组秩和肺炎散组T=1+3.5+5.5+7+8+11+13+15+17.5=81.5十枣汤组T=2+3.5+5.5+9+11+11+15+15+17.5+19=108.5⑶确定统计量T值 当两组例数不等时,例数较少组为n1,其秩和为统计量T值;当两组例数相等时,取任一组的秩和为统计量T值。本例n1=9,T=81.5。3.确定P值、做出推论(1)查T界值表,先找到n1与n2—n1相交处所对应的界值。若T值在界值范围内,其P值大于相应的概率;若T值等于界值,P值等于相应的概率;若T值在界值范围外,P值则小于相应的概率。(2)如果n1或n2—n1超出T界值表的范围,可用正态近似法计算u值。本例n1=9,n2—n1=1,T=81.5,查T界值表,得T0.05/2(9,1)=65~115本例统计量T=81.5在T0.05/2(9,1)界值范围内,所以P>0.05。按双侧0.05水准不拒绝H0,提示肺炎散和十枣汤治疗小儿肺炎后患儿体温降至正常所需天数的差别无统计学意义。(二)两组有序分类变量资料的秩和检验例题:用乙酰谷酰胺及呋喃硫胺头部穴位注射治疗脑发育不全29例,疗程60次以下18例,120次以上11例,结果如表9-3,试分析两种疗程的疗效是否有差别?头部穴位注射治疗脑发育不全两种疗程的疗效 疗程 合计 秩次范围 平均秩次 秩和 60次 120次 60次 120次 显效 8 10 18 1~18 9.5 76 95 有效 4 1 5 19~23 21 84 21 无效 6 0 6 24~29 26.5 159 0 合计 18 11 29 319 1161.建立假设、确定检验水准H0:两种疗程的疗效总体分布相同;H1:两种疗程的疗效总体分布不同。α=0.052.编秩求和、计算统计量T⑴计算各等级的合计人数、秩次范围、平均秩次及秩和。⑵求各组秩和60次以下组秩和=76+84+159=319120次以上组秩和=95+21+0=116⑶确定统计量T值 本例n1=11,n2—n1=7,T=116。3.确定P值、做出推论本例n1=11,n2—n1=7,查T界值表,得T0.05/2(11,7)=121~209。本例统计量T=116,在T0.05/2(11,7)界值范围外,所以P<0.05。按双侧0.05水准,拒绝H0,接受H1。两种疗程的疗效有差别。第四节完全随机设计多个样本比较的秩和检验用于推断数值变量资料或等级资料的多个独立样本所来自的多个总体分布是否有差别。采用的方法是Kruskal-WallisH检验,亦称H检验。在理论上检验假设H0应为多个总体分布相同,多个样本来自同一总体。但由于H检验对多个总体分布的形状差别不敏感,在实际应用中检验假设H0可写作多个总体分布位置相同;对立的备择假设H1为多个总体分布位置不同或不全相同。一、多组数值变量资料的秩和检验例题3:某医院用中医、西医和中西医结合3种疗法治疗某病,每组9例,每人治愈所需天数见下表,试比较3种疗法治愈天数差异有无显著性?3种疗法治愈天数秩和H检验计算用表 中医 西医 中西医 治愈天数 秩次 治愈天数 秩次 治愈天数 秩次 23 17.5 13 3.5 20 12.0 21 15.0 18 8.0 20 12.0 25 19.0 20 12.0 28 20.5 50 25.0 20 12.0 16 6.0 22 16.0 20 12.0 14 5.0 77 27.0 18 9.0 10 1.0 28 20.5 30 23.0 16 7.0 30 23.0 30 23.0 12 2.0 53 26.0 23 17.5 13 3.51.建立假设、确定检验水准H0:3种疗法治愈所需天数的总体分布位置相同;H1:3种疗法治愈所需天数的总体分布位置不同或不全相同。α=0.052.编秩求和、计算统计量H⑴编秩次:将各组数据混合,从小到大统一编秩。相同数据在不同组取平均秩;相同数据在同一组不必算平均秩,可顺次编。⑵求各组秩和:分别将各组秩次相加。中医组R=17.5+15.0+19.0+25.0+16.0+27.0+20.5+23.0+26.0=189西医组R=3.5+8.5+12.0+12.0+12.0+8.5+23.0+23.0+17.5=120中西医组R=12.0+12.0+20.5+6.5+5.0+1.0+6.5+2.0+3.5=69⑶计算统计量H值式中N为总例数,Ri为各组秩和,ni为各组例数。本例N=27,R1=189,R2=120,R3=69,代入公式得:当样本观测值存在相同秩次时,需求校正HC值。HC=H/C,C=1-Σ(-)/(N3-N),式中为第j种相同秩次的个数,N为总例数。本例不同组别中相同秩次有5种:第1种相同秩次为3.5有2个,即t1=2;第2种相同秩次为12有5个,即t2=5;第3种相同秩次为17.5有2个,即t3=2;第4种相同秩次为20.5有2个,即t4=2;第5种相同秩次为23有3个,即t5=3。将相关数据代入:C=1-〔(23-2)+(53-5)+(23-2)+(23-2)+(33-3)/(273-27)〕=0.9914HC=12.79/0.9914=12.903.确定P值、做出推论(1)若组数k=3,每组例数ni≤5,可查H界值表得出P值。(2)不满足条件1时,则H近似服从ν=k-1的χ2分布,可查χ2界值表得出P值。本例k=3,ν=3-1=2,最小n=9>5,查界值表,得χ20.05,2=5.99。今HC=12.90>5.99,故P<0.05。按α=0.05水准拒绝H0,接受H1,可认为三种疗法治愈所需天数的差别有统计学意义。多组资料经秩和检验,当P<α,差别有显著性意义,仅是从整体而言认为差别有显著性意义。若要进一步推断是哪两总体分布位置不同,各组相互之间差别有无显著性,须对各组秩和进行两两比较,常用的方法为多组秩和两两比较的q检验、多个独立样本两两比较的Nemenyi法检验等,详见有关统计学书籍。二、多组有序分类变量资料的秩和检验例题5:某医院用3种复方制剂治疗慢性胃炎,数据见表9-5,试比较其疗效。3种复方制剂治疗慢性胃炎疗效比较 例数 秩和(Ri) 疗效 复方Ⅰ 复方Ⅱ 复方Ⅲ 合计 秩次范围 平均秩次 复方Ⅰ 复方Ⅱ 复方Ⅲ (1) (2) (3) (4) (5) (6) * * * 痊愈 41 5 6 53 1~53 27 1134 135 162 显效 186 17 20 223 54~276 165 30690 2805 3300 有效 75 36 26 137 277~413 345 25875 12420 8970 无效 50 42 31 123 414~536 475 23750 19950 14725 合计 353 100 83 536 —— —— 81449 35310 271571.建立假设、确定检验水准H0:三种复方制剂疗效的总体分布位置相同;H1:三种复方制剂疗效的总体分布位置不同或不全相同;α=0.052.选择检验方法、计算统计量⑴编秩:同例题3。⑵求秩和(Ri)和统计量H值:3.确定P值、做出推论查χ2界值表,得χ20.05,2=5.99,P<0.05。按α=0.05水准,拒绝H0,接受H1,差异有统计学意义,提示3种复方制剂治疗慢性胃炎的疗效不同或不全相同。第五节随机区组设计资料的秩和检验随机区组设计资料的秩和检验又称FriedmanM检验,用于随机区组设计但不满足做双因素方差分析的资料。一、基本思想将各区组内的观察值按从小到大的顺序编秩;如果各处理的效应相同,各区组内秩次1,2,…,k应以相等的概率出现在各处理(列)中,各处理组的秩和R1、R2、…、Rk应接近;若各处理样本秩和相差很大,就有理由怀疑各处理组的总体分布不同或不全相同。二、检验步骤例题6:24只小鼠按不同窝别分为8个区组,再把每个区组中的小鼠随机分配到3种不同的饲料组,喂养一定时间后,测得小鼠肝中铁含量(μg/g),结果见表9-6,问不同饲料的小鼠肝中铁含量是否有差别?1.建立假设、确定检验水准H0:3种饲料喂养的小鼠肝中铁含量总体分布相同;H1:3种不同饲料喂养的小鼠肝中铁含量总体分布不同或不全相同;α=0.052.选择检验方法、计算统计量将各区组内数据由小到大编秩,见括号内数字,遇相同数值取平均秩次,求各处理组秩和Ri,再求平均秩和及M值。求M值:本例k=3,R1=9,R2=15,R3=24,3.确定P值、做出推论本例b=8,k=3,查M界值表,得M0.05=50,P<0.05。按α=0.05水准,拒绝H0,接受H1,差异有统计学意义,提示用3种不同饲料喂养的小鼠肝中铁含量不同或不全相同。第六节多个样本两两比较的秩和检验对完全随机设计多个样本比较用Kruskal-Wallis秩和检验和对随机区组设计用Friedman秩和检验,当推断结论为拒绝H0,接受H1时,只能得出各总体分布不同或不全相同的结论,但不能说明任两个总体分布不同。若要对每两个总体分布做出有无不同的推断,需要作组间的多重比较。一、完全随机设计多个样本两两比较例题7:对例题5资料作3组间的两两比较。1.建立假设、确定检验水准H0:任两种复方疗效的总体分布相同;H1:任两种复方疗效的总体分布不同;α=0.052.选择检验方法、计算统计量式中与为相应的平均秩和,N为所有处理组的病例数之和,RA与RB分别为任何两个对比组A与B的秩和,nA与nB为相应的样本含量.3.确定P值、做出推论本例K=3,代入公式,得α=0.0125。查附表1u界值表,u0.0125/2=2.50,结果见上表。按α=0.05水准,除Ⅱ与Ⅲ组间比较不拒绝H0外,其余均拒绝H0,接受H1,提示复方Ⅰ的疗效分布不同于复方Ⅱ与Ⅲ组,可以认为复方Ⅰ的疗效较好。二、随机区组设计资料的两两比较例题8:对例题6资料作两两比较。1.建立检验假设、确定检验水准H0:任两组饲料喂养的小鼠肝脏中铁含量的总体分布相同;H1:任两组饲料喂养的小鼠肝脏中铁含量的总体分布不同;α=0.052.选择检验方法、计算统计量先将各组的秩和由小到大排位次,并标明组别及秩和。结果:确定两对比组范围内包含的组数a,求出各对比组秩和之差RA-RB及q值,列下表。3.确定P值、做出推论以组数k和ν=∞查“附表11q界值”,得P值见上表。按0.05水准,可认为A组与C组、B组与C组饲料的小鼠肝脏中铁含量不同,而不能认为A组与B组间有差别。统计表与统计图第一节统计表统计表——反映统计分析的事物及指标关系的表格形式。广义上的统计表:调查表、整理表、计算表及表达统计结果的表格。狭义上的统计表:表达统计结果的统计表。一、统计表的基本格式二、统计表的种类1.简单表:是按一个标志/特征分组的统计表。2.组合表:亦称复合表,是按两个或两个以上的标志/特征结合分组以表达他们之间关系的统计表。中药治疗不同证型妊娠水肿的临床疗效两种方法治疗不同类型肝炎的疗效比较三、统计表的制表原则1.重点突出、简单明了。2.主谓分明、层次清楚。四、统计表的结构1.表号:位于顶线上方、标题的左侧,与标题之间空2个字符,以阿拉伯数字表示。2.标题:位于表号之后,简明扼要的说明表的内容(因素、对象、效应),必要时注明时间和地点。3.标目:横标目是统计表的主语,用以说明事物的主要标志(被观察的对象)。纵标目是统计表的谓语,说明主语的各项指标。4.线条:尽量的少。一般只能出现顶线、标目线、底线3条等长线,合计上面的横线左侧不到头。5.数字:一律采用阿拉伯数字,同一指标的小数位数应一致,位次对齐。表内不留空格,暂缺或未记录用“……”表示,无数字时用“——”表示,数字为“0”时则填写“0”。6.备注:用“﹡”号标出,写在表的下面。五、统计表的修改统计表是否合格应从三方面考虑。1.只有一个中心。标题简明扼要地说明其内容。2.清晰简明。标目安排妥当,数字和线条。3.便于阅读和分析。两个治疗组对比两种药物治疗心肌梗死并发休克的疗效比较第二节统计图统计图—是用点的位置、线段的升降、直条的长短或面积的大小等表达统计资料的一种形式。一、统计图的绘制要求1.图形:根据资料的性质和分析目的选择。3.内容:有“自明性”。2.标题:含时间、地点、内容和序号,在图的下方。5.图例:有不同线条或颜色时应附图例。4.坐标:纵、横轴应有标目、刻度、单位。比例一般为5﹕7。二、常用的统计图条图、圆图、百分条图、线图、直方图、散点图与箱式图等。1.条图用等宽直条的长短或高低表示某研究指标的数量大小。有单式条图和复式条图两种。用于表示分类变量的频数或率;表示多组数值变量资料的均数和标准差。条图的绘制:⑴横轴表示各个类别;纵轴表示其数值大小,尺度必须从零开始,标明所表示指标的尺度及单位。⑵长条的宽度要相等,间隔相同。将指标按由大到小的顺序排列。⑶绘制复式条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,并用图例说明。2.圆图以圆形的总面积代表100%,把面积按比例分成若干部分,以角度大小来表示各部分所占的比重。表示分类变量资料的构成比。圆图的绘制:⑴先绘制一大小适当的圆形。将各部分百分比乘以3.6度即为各构成部分应占的圆心角度数,所得各部分的扇形面积即代表某一构成部分。⑵自圆的12点或9点开始由大到小按顺时针方向依次绘制。⑶圆中各部分用线分开,注明简要文字及百分比或图例。⑷如有2种或2种以上性质类似的资料相比较,应绘直径相同的圆,并使各圆中各部分的排列次序一致。3.百分条图亦称构成条图。是以直条总长度作为100%,直条中各段的面积表示事物各组成部分所占的比重。表示分类变量资料的构成比。百分条图的绘制:⑴先绘制一个标尺。尺度等分成10格,每格代表10%,总长度为100%。⑵绘一直条。宽度自定,长度与标尺相同,在标尺的上方或下方均可。⑶按各组成部分所占百分比,由大到小或自然顺序把长条分成相应的部分,注明简要文字及百分比或用图例表示。⑷如有2种或2种以上性质相同的资料进行比较,应绘制同等大小的直条,且条中各段的排列次序一致。4.线图用线段的上升和下降来表示事物在时间上的变化,或某现象随另一现象变化的情况。用于表示连续性资料的频数或率。线图的绘制:⑴横轴表示某一连续变量(时间或年龄等);纵轴表示某种率或频数,起点必须从零开始,其尺度等距。⑵同一图内如有几根线,可用不同的图线(实线、虚线等)来表示,并用图例说明。⑶图线应按实际数字绘制成折线,不能任意改为光滑曲线。5.直方图以直方面积表示频数的多少,以直方面积在总面积中的比例表示频率大小的图形。表示数值变量资料的频数分布。某地120例正常人血清铜含量(μmol/L直方图的绘制:⑴横轴表示数值变量,组距为直条的宽度,标明各组段的下限;纵轴从零开始,表示被观察指标的频数。⑵直方图的各直方间不留空隙。⑶组距不等时,纵轴应进行等组距变换。方法是以该组段的频数除以该组的组距所得的商,为该组直方的高。6.散点图以直角坐标系中各点的密集程度和趋势表示两现象间的关系。根据点的散布情况,推测两种事物或现象有无相关。用于两组数值变量资料的相关分析。散点图的绘制:⑴横轴代表自变量,纵轴代表因变量。⑵纵、横轴的尺度起点不一定是0,可根据资料的情况设置。⑶在每对自变量与因变量数据交叉处画一点即成散点图。7.箱式图以箱子上端为P75,下端为P25,中间以横线示M,最大值、最小值为“箱子”的上下两个柄绘成的箱状图形。描述数值变量资料的集中趋势和变异情况,对几组数据的分布进行直观比较。研究设计基础研究设计——根据研究目的,结合统计学要求,对研究的全过程进行周密、合理的统筹安排。分为:专业设计和统计学设计。意义:正确地选用研究方法、统计分析方法,精确地估计样本含量,严格地控制实验误差,以最小的投入获得最多最可靠的信息,保证研究成果的先进性和科学性。第一节专业设计的基本要素专业设计——即根据研究目的选择适当的研究对象、处理因素和效应指标,选择适当的研究方案、技术路线和评价标准等。本节主要介绍专业设计中的受试对象、处理因素、实验效应3个基本要素。处理因素(降压药)↓受试对象————-——→实验效应(高血压患者)↑(血压值降低)非处理因素(如病情等)图1专业设计的三要素一、受试对象——是处理因素作用的客体,主要是人群、病人、实验动物和各种标本。(一)受试对象的选择取决于科研种类和研究目的。1.敏感性:对施加的处理因素比较敏感,容易显示处理因素引起的效应。2.特异性:对处理因素有较强的特异性,便于排除非处理因素的干扰。3.稳定性:对施加处理因素的反应有较好的稳定性,以便有效地控制实验误差。4.可行性:在一定的时间内是否能够得到足够的、符合条件的受试对象。(二)临床研究受试对象的相关标准1.诊断标准:指能够正确诊断一个疾病或证候的现行公认的标准。2.纳入标准:指合格受试者所应具备的条件。除应符合诊断标准外,还必须考虑具体研究的目的及实施的可行性。3.排除标准:指不应该被纳入研究的条件,其目的在于排除不符合研究要求的情况。4.退出标准:即受试者从试验治疗中退出的标准。二、处理因素——亦称被试因素或研究因素。是指研究者主动施加的某种外部干预或措施。非处理因素:是除了处理因素以外,对研究结果有影响的因素。非处理因素符合两个条件即是混杂因素:①参与实验过程,影响实验效应。②在不同处理组中的分布不同。(一)处理因素的数目与水平1.单因素单水平最常见的实验类型。实验条件易控制、容易实施。2.单因素多水平是单因素多群组的实验。用于珍贵药物、毒性较大的药物或新药剂量的选择。3.多因素单水平比较不同药物、不同疗法、不同复方、同一复方中的不同单味中药、同一单味中药中不同有效成分的疗效。4.多因素多水平观察多因素的联合作用。主要作用、次要作用、交互作用。可以提高实验的深度和广度,但分组太多,需要的样本太大。(二)处理因素的标准化保证处理因素在整个实验中按一个标准进行。如处理因素的剂量、药物批号、剂型、制药方法、给药途径、疗程等。如方药的疗效评价,构成处方的药物及其种属、产地、炮制的工艺流程、质量控制指标、服药方法、剂量、疗程等,均应作明确的规定。三、实验效应——亦称效应指标。是处理因素作用于受试对象的客观反应和结局,往往通过观察指标来表达。(一)选择效应指标的依据1.关联性:即所选指标与研究目的有本质的联系,并能确切反映处理因素的效应。2.客观性:是通过适当的手段和方法被客观的度量和检测,并以一定的量表述的观测值。3.精确性:包括精密性与准确性。精密性:表示多次观测结果取得一致或接近一致的程度。准确性:即观测值与真值的接近程度。反映观察结果的真实程度。4.可用性:即选用的指标能准确反映效应特点,与指标的敏感性和特异性有关。敏感性:指选用的指标能够以最小的数量级或水平正确反映效应变化或结果。特异性:能反映病证及效应的本质,不受其它因素干扰。5.稳定性:就是指标的变异程度。它与仪器的稳定性有密切的关系,因此应选用性能良好的仪器,并注意维修和校准。在一个实验中,尽量不要调换操作者。6.重现性:即无论何时、何地、何人都能得到相同的结果。第二节统计学设计的原则统计设计——是依据研究目的,对研究的全过程作出周密、合理的统筹安排。规定因素、对象、效应的引入方式、方法和规模,对实施方法、方案及数据搜集料、整理、管理、质量/误差控制、分析模式直至结果的解释进行系统的安排。保证论文的科学性、逻辑性、有效性和可读性。基本原则为随机、对照、均衡、重复、盲法。一、随机——指在抽样、分组和安排试验顺序时,每一个研究对象都不受研究者或研究对象主观因素的影响,机会均等地被抽取、被分配或被安排。1.随机抽样的方法⑴单纯随机抽样将总体中的观察单位进行编号,在用随机数字表或计算机随机程序等方法随机抽取部分观察单位组成样本。优点:计算样本数字特征较简单缺点:费时费力,实际工作困难,样本量通常较大⑵系统抽样把总体观测单位按一定顺序分为n个部分,从第一个部分随机抽取第k位次的观察单位,再从每一部分中抽取相同位次的观测单位,由这些观测单位组成样本。⑶整群抽样总体数为N的观察单位分为K群,每个群中包含若干个观测单位,随机抽取k群,这些群众的全部观测对象组成样本。⑷分层抽样按总体人口学特征或影响观测值变异较大的某种特征(年龄,病情和病程等)分成若干层,再从各层随机抽取一定数量的观测单位组成样本。2.随机分组的方法随机数字表、随机排列表、计算机随机程序例题:试将18例合格受试者采用“随机数字表”分配至A、B两组,每组各9例。⑴将受试对象依次编为l~18号。⑵从随机数表的第一行第一列开始向右读取18个一位数的随机数字,并依次标在受试对象编号下面。编号:12345678910随机数:2217686581编号:1112131415161718随机数:68952392⑶令随机数字为单数者分入A组,为双数和零者分入B组。A组:3、4、8、10、13、14、16B组:1、2、5、6、7、9、11、12、15、17、18⑷平衡两组例数A组:3、4、8、10、13、14、16、2、17B组:1、5、6、7、9、11、12、15、18例题:试将20名受试对象随机采用随机排列表分到甲、乙两组,每组各10例。⑴将20名受试对象编为1~20号。⑵从随机排列表读取第二行的数字,依次标在受试者编号下面。⑶令随机数字0~9分入A组,10~19分入B组。编 号:12345678910随机数:819761114213517组 别:ABAABBABAB编 号:11121314151617181920随机数:912016151410183组 别:ABABBAABBAA组:1、3、4、7、9、11、13、16、17、20B组:2、5、6、8、10、12、14、15、18、19二、对照——即在调查或实验过程中,确立可供相互比较的组别。目的在于控制各种混杂因素,鉴别处理因素与非处理因素的差异,消除和减少实验误差,提高研究结果的真实性和可靠性。常用的对照:1.空白对照2.实验对照3.安慰剂对照4.标准对照5.历史对照6.自身对照7.相互对照8.复合处理对照三、均衡——指实验组与对照组之间非处理因素的相同或相近。即对照组与实验组除处理因素不同外,其它非研究因素(如年龄、性别、病情轻重、疾病分期等)均应尽量保持均衡一致。这种对比组间的一致性或可比性越好,就越能显示出试验组处理因素对试验结果的影响。非处理因素临床试验的主要非处理因素:年龄、性别、病情、病程、疾病分期、体重、疾病史、家族史、经济条件等;动物实验主要的非处理因素:窝别、体重、营养状况、药物种类、剂量、治疗时间等。常用的均衡方法①交叉均衡:即在各试验单元中既设试验组、又设对照组。②分层均衡:将混杂因素按不同水平及组合划分为若干层,然后在每个层内随机分组。四、重复——包括足够的样本含量和重复试验结果的重现性两个方面。重复的主要作用在于控制和估计试验中的随机误差,使样本统计量更好地代表总体参数。重复数的多少主要取决于1.实验设计的类型配对和配伍组设计比完全随机设计需要的n少。2.统计资料的类型数值变量资料需要的n少,分类变量资料所需的n大。3.单侧/双侧检验单侧检验比双侧检验所需n少。4.总体变异度σσ越大,所需样本含量越多。5.第一类错误的概率αα越小,所需n越多。6.检验效能1-β1-β即在特定的α水准下,H1为真时检验能正确发现的能力。1-β越大,所需n越多。7.允许误差δ是希望发现或需控制的样本和总体间或两个样本间某统计量的差别大小。如δ=μ1−μ2,或δ=π1−π2。δ越小,所需n越多。8.各组例数相等时,总例数相对较少。五、盲法——指在不知道研究对象分组情况的前提下进行临床研究过程中指标的观测、数据的收集和结论的判断。采用盲法设计可克服研究者或受试者的心理因素造成的偏倚。盲法的种类:1.单盲法在实施一个实验方案时,研究对象不知道所在的分组或者被施加的研究因素。2.双盲法在实施一个实验方案时,研究对象和研究者双方都不知道分组情况或者所施加的研究因素。3.三盲法在实施一个实验方案时,研究对象、研究者和统计分析者三方都不知道分组情况或者所施加的研究因素。4.开放试验研究对象、研究者和统计分析者均知道试验组和对照组的分组情况,以及所给予的干预措施,试验公开进行。Welcome!!!欢迎您的下载,资料仅供参考!精选资料,欢迎下载
/
本文档为【中医药统计学与软件应用笔记重点】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索