中国卫生统计 � � � � 年第 �� 卷第 � 期
纵向研究中重复测量资料的广义
估计方程分析
南京铁道医学院 陈启光
提 要 本文介绍了纵向研究重复测量资料应用广义估计方程�� � � �的分析
,并由此可得出
回归参数的一致性估计值 。 文中应用 � � � 法对多次随访的临床试验资料实例进行分析 。
关健词 纵向研究 重复测量 广义估计方程 广义线性模型
纵向研究 �� �� ��� � 认�� �� “心 �是一种常见
的医学研究方法 。例如临床药物治疗某病 , 观察
病人在不同疗程时 , 反应疾病的指标变化与影
响疾病的因素间关系等 。 这些研究都要对每个
观察对象某个感兴趣的指标作重复测量 , 目的
在于分析反映测量结果与影响因素间依存关系
外 , 还需考虑重复测量值间的相关关系 。当测量
结果呈正态分布时 , 可用一般的线性模型分析
方法 〔‘〕 , 当测量结果呈二 项分布或 �� � � � � 分
布时 ,如果观测值间互相独立 , 则可用广义线性
模型 〔幻处理 。 但是由于纵向研究中在重复测量
资料分布不明确或不呈正态分布而测量值间又
可能存在相关关系时 , 需要用一种适 当的统计
方法解决这类问
。
� �� � � 和 � � � � � 乙, , 在 环乍� �‘�乙� �� “〕和 � � �
� � ��� � � 〔, , 提出的准似然函数 �� � � � �了�庵� ��� � � � �
和广义线性模型的基础上 , 创建了用广义估计
方 程 �� � � � � � ��� � � � � ��� � �召 � � � � ��� 。 , 简称为
� � � �解决上述问题 。 本文在概括介绍 � � � 法
的基础上 , 对 �� � �� � � 等 〔幻 的临床试验资料采用
� � � 法重新作 出分析 �
广义估计方程分析的原理
一 、 � � � 分析的几个组成部分
� � 纵向研究资料的组成 � 在纵 向研究中 ,
第 �个个体 �� � � , �� 一 , �� 在第 �次观察�� � � , �
⋯ , � 、�的观测结果记作 , , 。 �� 亦称为反应变量
值 , 它可 以表示成一个 � 、 � � 维向量 � ‘一 �, � ,
⋯为 ‘� ‘ � 记戈, 为影响 , , 的因素 , �� �是 � � � 维
协变量向量 , 将这些协变量组成 � ‘义 � 维矩阵 ,
记作 戈二 �戈 � ,一戈 � ‘�’ 。
� � 由广义线性模型理论可知 , 假设反应变
量 笋�的边缘分布服从指数簇的分布形式 , 其密
度为 �
� �� ‘, �一 �动 以� ‘, 产‘, 一 � �产‘, � � � �� ‘, ��必〕
���
式中 必称为尺度参数 �闪组成 所 向量称为
均数向量 � �‘与方差 � ‘及 产间存在函数关系 ,
记作 � ‘� � �产‘�� 必
� , 如果存在一个线性预测 劝 , 使 从� 戈夕,
其 中 尹是 � � �维回归系数组成的向量 。
� 。 存在一个联系函数 ��� �� �, 它将 所 与 从
联 系起来 , 即 � �片 � � 从, 根据广义线性模型理
论 可 以证 明 � 勺‘, � � � ‘ �产‘, � , � � � 勺 , �� � � ”
�片 , � �必
� � 对于纵向研究重复测量资料 , 每个观测
对象测量值间可能存在相关关系 , 组成一个 ,��
又 � ‘维的 “作业 ”相关 矩阵 �� � � � �� � �� �� �� � �
� �� � � � �� �� � , 记作 � ‘�� � 。 对不同的观察对象 ,
观察次数和相应的相关 矩 阵不尽相同 , 而 凡
��� 假设是由未知参数 � 所决定的 , � 称为相关
参数 。 �� � � � 和 ��� �� 提出了 � 当重复测量时 ,
可以按作业相关阵 � 、��� 导出如下的广义估计
方程 �� � � � , 并由这个方程得到回归系数的一
致性估计值 。
二 、广义估计方程 �� � � �的形式
中国卫生统计 � � � � 年第 �� 卷第 � 期
� � 当观察对象重复测量值间彼此独立时 。
如同似然函数分析结果 , 可以推导出得分方程
�� �� �� �口� � � ��� �为 �
习� “△‘� ‘� 。 �� �
廿二 , 。 二 � 产、、一 , , 南 ‘、 、 , 。 � 二多女甲 钩 �亡 田 石二刀少�承 乏巳月为阴 � � 入 �� 不压刘“ ,� 云
角阵 , � ‘� � ‘一产‘。方程 ��� 的解是 回归系数月的
估计值 ,记作 夕� 。
� � 当观察对象重复测量值间存在相关关
系时 , 作业相关阵 � ‘�� �由 � 义 � 维未知参数 �
组成的向量所确定 。 当所有对象由同一个参数
值 � 确定时 , 按准似然函数理论 , � 、的作业协
差阵记作 � 若 , 而且有
� ‘ � 八声尺‘�� �八合�沪 �� �
式中 � , 是 � , 又 � , 维对角矩阵 , � ‘中第 �个
对角线元素是 � �片 , � , 这时 � � � 方程为 �
� � 独立型 � ‘�� � � � , � 为 � ‘� � ‘维单位阵 ,
表示重复测量值间彼此不相关 , 方程成为 〔� �
式 。
� � 可交换型 〔� ‘�� �〕� � , � � , 即任何时刻 �,
和 � , 的测量值相关程度 由反应 随机效应的参
数 � 确定 。
� � 相依型 �� �‘厂“山 �〔� ‘�� �〕, � , � ��� 一气 �簇��� ‘, 一 �‘。 �� �
即从时刻 ��, 到 �‘, 间有 】�‘, 一 �‘� �簇� � 二 , 时 ,
相关程度 由 � ’“厂叼确定 , 称为平稳相依 � 型过
程 �� �� ��� � 即 � 一� �� � � � � � � ��� � � � �� � �⋯ �
当 � � � 时 , � ‘�� �� � �
� 一 �
习� , ‘� � , � ‘一。 �� �
其中 。‘一爵, � 才一 � ‘一 , ‘
方程 ��� 和 ��� 中存在三个参数 , 即 � , 沪和
月, 而 � 和 沪又都是 召的函数 , 因此 , 只有在给定
。 和 必的估计值 舀、必后 , 才能用迭代重复最小
二乘法解方程 中的 口, 结果记作 凡 。 �� �� � 用
尸�� �� � 残差 � 。估计 � 和 沪, 即 �
、‘, 一、, ‘, 一 。 , �众, �� ,办不石,
二 ”‘
必一习艺却�� 一�� 。� , � � � �
盖
其中 � 一习 , ‘
“一咨几几� �� 一 , � , 其中 “ , 。一 � , � , ⋯ ,
�� � � 一 � �
即〔� 、�� �〕� � �� � � �
�� 一 阶 自回 归 型 , 如 果 , �呈 正 态 , 〔凡
�� �无 , 一 口呀一“‘’�� 护�� 称为一阶自回归型 。
� � 非确 定型 , 当重复测量次 数相 同 �� ‘�
� � , 观测值间相关情况不确定时 , 需要估计 n( n
一 1 )/ 2 个相关值 。
R
‘
( a) 之所以称为作业相关矩阵 , 是因为在
估计回归参数 口及其方差 时 , 不一定需要完全
确切地指定其形式 。 Li an g 等从理论上证明了 ,
当云和必具有一致性估计性质时 , 即使 R ‘(a ) 指
定的不正确 , 但估计的 夕。 仍具有渐近正 态性 ,
而且斑和 v 。: (风)仍具有一致性 。 当资料缺失
数据很少或只是 随机缺失 时 , 估计值都具有稳
健性质 。
实 例 分 析
将 舀净代入 (4 ) , 经迭代后得到 风 为 月的
估计值 。 可以证明当 k~ co 时 ,几及其方差 v 。:
(忘)为一致性估计量 。 va , ‘风)的算式详见文
献〔3〕。
三 、作业相关阵 R ‘(a ) 的选择 。 R ‘( a) 的形式
有 :
St ani sh 等人对一种治疗皮肤病的新药评
价其安全性及 有效性 。 资料的原始数据 见
St a nl’s h 〔。等的文献 。 试验中 , 病人被随机分配
到新药组或安慰剂组 中。病人接受治疗前 , 医生
先对病人的病情严重情况作出初始
, 治疗
后随访三次 , 每次随访 比较病人的病情相对于
初始时的改善 , 三级为无变化 ;四级为变坏 ;五
中国卫生统计 1 , 9 5 年第 12 卷第 1期
级为变得很完善 。评估等级分为五级 :一级表示
为改善很快 ;二级为有改善;三级为无变化 ;四
级为变坏 ;五级为变得很差 . 新药组病人共 88
例 , 安慰剂 组 84 例 , 三次均作随访的病人共
13 5 例共计 405 个记录 。 有一次或两次失访的
病人 37 例 , 合计 172 例共 467 个记录 。 前者组
成了完全随访资料 , 后者 为包含失访的不完全
随访资料 。 影响试验结果的协变量及其水平编
码见表 1。
表 1 St an is h 临床试验资料变量及水平编码
变量 水平编码
,几0
..几,一,几治疗后状况(卜 )
组别(G ro nP )
怡疗前状况(户r‘o r )
2口O吐‘,几
随访次数(t£, 。 )
< 3 级
) 3 级
新药组
安慰剂组1 级2 级3 级4~ 5 级r1
亡2
t , 3
假设治疗后状况有改善(即 3级以下 )概率
的 lo gl t值与协变量间存在回归关系 , 几次随访
间相关关系在完全随访资料中作业相关阵选用
了四种类型 , 而不完全随访资料中 , 由于有的病
人仅随访了一次 或两次 , 因此 R 、(a ) 阵只选用
独立型及可交换型两种 。 由此估计的回归系数
及其相应的t值见表 2 和表 3 。
从表 2 、表 3 可 见协变量 中 治疗 前状 况
(P ri 。, ) 的 t值均不显著 , 即该变量对治疗后病
情改善程度影响不大 , 可以考虑剔除 。第三次随
访结果 口。 及其 :值在两类资料中结果不一致 ,
暂不考虑剔除该变量 , 剔除治疗前状况 (P ri or )
变量后 , 再用 G E E 重新估计两类资料的 几值 ,
结果见表 4 、表 5 。
表 4 及表 5 说明两类资料中新药组和安慰
剂组在病情改善状况对不同随访时间差异有显
著性 。 说明新药治疗有效 。 为此 , 分别计算两类
资料在两组中的 lo gl t值及其相应的 O R 值 。 表
6 、表 7 列举了当两种作业相关阵 R ‘( a) 一 a 即
可交换型时及 R ‘ ( a) 一I 即独立型时结果 。
表 2 完全随访资料四种作业相关阵估计回归系数斑(t 值)
治疗前状况(户石 , ) 随访 tl时 随访 t:时 随访 t:时作业相关阵
组别(g ro uP )
(t值) 夕。 ( t 值)
独 立 型
平德相依 l 型
可 交 换 型
非 确 定 型
一 1 2 5
一 1 . 32
一 1 . 3 1
一 1 , 3 7
( 一5. 3 3 )
(一4 . 5 4 )
(一 5. 4 9 )
(一 5. 58 )
一0 , 0 7
下0 。 0 4
一0 、 0 7
一0 0 7
(一0 .5 8 )
(一0 .2 9 )
(一0 . 5 9 )
(一0 .6 1 )
: :
: :
(t值 )
(2 .3 1)
(2 .08 )
(2 .52 )
(2 .69 )
0 ‘ 1 6
0
.
1 6
0
.
1 6
0
.
1 6
(
t 值 )
(2. 84 )
(2. 84 )
(2. 84 )
(2. 84)
O 。
0
。
: :
: :
(
t 值)
(1.88)
(1.88)
(1.88)
(1.88)
表 3 不完全随访资料两种作业相关阵估计回归系数八(‘值)
组别(gr‘ uP ) 治疗前状况(P~ ) 随访
t:时 随访 t:时 随访 t。时
作业相关阵 (t值) 凡 (, 值)
独立型
可变换型
一 1 . 2 5
一 1 . 3 0
(一 5 . 9 0 )
( 一 6 . 0 8 )
一0 . 1 2
一 0 。 1 6
( 一 1 . 0 4 )
(一 1 3 2 ) : ;
(z值)
(2.70 )
(3.11)
0。 1 8
U
。
l b
(
t 值 )
(3.26)
(2.85) :
.
::
(t值 )
(0. 12 )
(2. 10 )
表 4 剔除变量后完全随访资料四种作业相关阵估计回归系数 夕(‘值)
组别(G R仪JP ) 第一次随访 tl 第二次随访 勺 第三次随访 t3作业相关阵 (t值 )
独立型
平稳相依 l 型
可交换型
非确定型
一 1 . 2 5
一 l 。 3 2
一 1 . 3 1
一 1 . 36
(一 5 . 3 1 )
(一4. 5 0 )
(一5 . 4 7 )
(一 5 . 3 6 )
0 。 9 0
O
。
9 8
0
.
9 7
1
.
0 3
(
t 值)
(3 53 )
(3、 0 2 )
( 3
.
7 7 )
( 3
.
9 5 )
0
.
1 6
0
.
1 6
0 1 6
0
.
1 6
(
t 值)
(2.84)
(2.84)
(2.84)
(2 84)
0.12
0.12
0.12
0 12
(t值)
(1 , 8 8 )
(
1
.
8 8 )
(
1
.
8 8 )
(
1
,
8 8 )
中国卫生统计 1995年第 12 卷第 1期
表 s 剔除变量后不完全随访资料两种作业相关阵估计回归系数 风(t 值)
组别 (G双〔硬了尸) 第一次随访tl 第二次随访 勺 第三次随访 勺作业相关阵 (r值) (t值) (t值 )
独立型
可交换型
一 1 . 24
一 1 . 2 9
(一5. 8 6 )
(一 6 . 0 2 )
0 . 8 4
0 .吕9
( 3. 57 )
( 3. 79 )
0 . 1 8
0 . 1 5 : ;
值)
22 ) 0 。 1 6
0
。
1 3
( 2
.
4 8 )
( 2
.
1 0 )
表 ‘ 完全随访资料两种作业相关阵对两组的lo git (及 O R )值
R‘( a ) = I 凡(a )= a
组别到玉圳— 一— 一— —一 一 一— 一 一一—— 一一一t l t : t 3 t一 ’ t Z t 3新药组安慰剂组 一 0 . 3 5 ( 0. 70 )一 1 . 6 0 ( 0. 20 ) 一0 . 19 (0 . 2 8 )一 1 . 44 (0 . 2 4 ) 一 0.2 3 (0 . 7 9 )一 1 .4 8 (0 . 2 3 ) 一 0 . 3 4 (0 . 7 1 )一 1. 6 5 (0 . 1 9 ) 一 0 . 18 (0 . 8 3 )一 1 . 49 (0 . 2 3 ) 一 0 . 2 2 (0 . 8 0 )一 1. 5 3 (0 . 2 2 )表 7 不完全随访资料两种作业相关阵对两组的 10 9叔及 O R )值R户( a ) = I R ‘( a ) = a一·一一组别 tl t: t, t 一 t : t ,新药组安慰剂组 一0 .4 0 (0 . 6 7 )一 1. 6 9 (0 . 19 ) 一 0 .2 4 (0 . 7 8 )一 1 .5 3 (0 . 2 2 ) 一 0 . 2 7 (0 . 7 6 )一 1 .5 6 (0 . 2 1 ) 一 0 . 4 0 (0 . 6 7 )一 1. 5 6 (0 . 2 1 ) 一 0 . 2 5 ( 0 . 7 8 )一 1 . 6 9 ( 0 . 1 9 ) 一 0 .2 7 (0 . 76 )一 1 .5 6 (0 . 2 1 )表 6、表 7 说明完全随访资料经新药治疗 ,病情改善概率的 O R 值达到 71 一83 % ;而安慰剂组只有 19 ~ 23 铸 。 不完全随访资料经新药治疗后 , 病情改善概率的 O R 值在 67 一78 % ;而安慰剂组只有 ”~ 21 % 。讨 论纵向研究重复测量资料的 G EE 分析是对每一研究对象多次测量后 , 考虑了反应值间可能有相关关系但又不能确定其分布时 , 研究反
应变量与协变量间存在的回归关系。 由于反应
量分布不明确 , 因而不能用似然函数估计参数 。
假定每个研究对象观察值间存在某种类型的作
业相关阵时 , 应用准似然函数原理 , 用 G E E 法
估计回归系数 风及其方差 , 理论上可以证明它
们是一致性估计量 . 作业相关阵的选择按实际
资料而定 , 一般先选择独立型 、可交换型和平稳
相依 1型为宜.用 G E E 法 比较各参数的t值和
当相关阵为 R (真实的相关阵)计算的 t值 (称
为 nai v尸 t 值) , 以两种 t值相差不大时的作业
相关阵去拟合和计算斑。这一步骤需要用 G E E
软件计算而得 。当观察次数不相等或很少时 , 显
然不宜用非确定型和平稳相依 m 型作为作业
相关阵。 实践表明 , 除独立型外的其他各种 风
(a )由于都考虑随时间变化的多次重复测量 间
相关关系 , G E E 估计的回归系数 氏都较稳定 。
当相关程度高时 , 独立型与其他各型的 风 差别
很大 。
( 致谢 :本工作得到美国 Joh n。 H 叩k ins 大学公共卫生学
院 L iang , K u n g 一Y e e 博士指导 , L a r r y M a g d e : 博士提供软件 .
在此一并致谢) 。
T b e a n a l y s l s o f l o n g i t u d 五na l d a ta u s in g g e n e r a liz e d es -
tim a tin g e q u a t io n s Ch en Q ig o a , g
,
N
a
;Iji
n
g R
a
i l w 叮
人介以ical Co lle ge , N a 雌ng.Thispaperintrod ueestheanalysi吕 o f lo n g ir u d in a l d a ta u s -
in g a e la s s o f g e n e r a liz e d e s r im 正一tin g e q u a rio n s ( G E E s ) t h a t
g iv e e o n s is t e n t e s t im a t e s o f t h e r e g r e s s玉o n P a ram e ters . A n e x -
a m p le o f th e u s e o f G E E a p p p roa e h w ith lo ng itu d in a l d a ta
fro m th e s tu d y o f fo llo w 一u p i n S t a n is h ’5 C l i n i e a l t r i a l 15 i l l u s -
t r a t e d
.
K e y w o r d s L o n g i t u d i n a l s t u d y R e p e a t e d e s t i m a
-
t i o n G e n e r a l i ze d
e s t i
ma
t i n g e q u a t i o n s G e r e r a l i z e d l i n
-
e a r m o d e l
.
参 考 文 献
1. Laird , N . M . 衣 W are , J . H . R a n d o m 一 e f f e e t s m o d e l s f o r l o n -
g i t u d i n a l d a t
a .
B i o m e t r i e
s 1 9 8 2 ; 3 8
: 9 6 3
.
2
.
M
e u l l a g h
,
P
.
& N
e
l d
e r ,
J
.
A
.
G
e n e r a
l i
x e
d l i
n e a r
m
od
e
l
s
.
L
o n
d
o n :
C h
a P m
a n a n
d H
a
l l
.
1 9 8 3
.
3
.
L i
a n g
,
K
.
Y
.
a n
d Z
e g
e r ,
5
.
L
.
L
o n g i
t u
d i
n a
l d
a t a a n a
l y
s
i
s u s -
i n g g
e n e r a
l i肥d lin e a r m o d e ls . B io m e trik a 19 86 ; 7 3 : 1 3.
(下转 51页)
中国卫生统计 1995 年第 12 卷第 l 期
1985 年住院工作量进行了预测 :1985 年住院工
作量 一 1984 年住院工作量 丫平均发展速度 , 即
1985年住院工作量 = 5 4 29 x 104.8铸一 5 6 8 8
人次 , 预测 1990年在没有外来不可抗力因素影
响下 , 住院人次将达到 7 180 人次 , 提示在今后
5 年中增加床位是医院的一项工作 。 从 1985 年
起我院床位逐年得到了增加 , 由 1985年 28 2张
床位增加到 1991 年的 350 张床位 ,大大减轻了
病床超负荷运转状况 , 使病床使用率几年来一
直保持在 85 % 左右的正常水平上 。
4
. 利用《医院信息导报》, 使综合统计信息
交流走向社会大市场 。
我院信息科开办发行了《医院信息导报》,
每月一期下发各科 , 利用这一园地开办了各种
统计信息栏 目。如#工作总结#栏目 ,对每月医院发
生大事进行统计 , 题为医院大事回顾 , 有利于医
院工作系统化 、程序化 , 使领导和群众做到心中
有数 , 便于工作
和总结 。
三 、应用计算机管理 , 实现信息管理的现代
化 。
1 9 9 2 年我 们配备 了 A ST 一 3 86 电子 计算
机 , 并应用计算机对病案管理 、 医院统计 、住院
经济效益等方面进行了软件开发 。 病案统计软
件以卫生部统一
病历首页为源数据进行录
入 。 由于能进行各方面的查询 、索引 , 随时能打
印成表便于保存 , 为医院各方面工作提供了信
息资源库 。
开发利用信息资源 , 为医院各方面提供服
务是一项新得工作 , 还有待于开发尝试 ,逐步完
善.只有善于观察 , 勇于探索 , 不断总结经验 , 才
能使 医院统计信息工作更好地在为医院建设 、
医疗服务 、管理质量等方面发挥作用 , 提供优质
服务 。
· 资 料 ·
西方各国 65 岁以上老年人 口构成及预测(% )
年份 1950 1970 1990 2000 2010 2025
日本 4.9 7.7 12.1 17.0 2 1.3 25.8
美国 8. 1 9.8 12.6 12.8 13.6 19.8
法国 11.4 12. 9 13 .8 15.4 15.7 20.8
西德 9.7 13. 2 15.4 17.0 20.4 24.1
荷兰 7.7 10. 2 12.7 15.6 15.2 2 1.3
瑞典 10.3 13.7 18.1 17.1 18.8 2 2.4
英国 10. 7 12.9 一5 . 4 1 5 . 2 一5. 7 2 0 . 0
意大利 8. 3 10.9 14.3 17.1 18. 7 2 2.8
(摘自《厚生刃指标》19 9 5 , 4 0 ( 1 2 ) , 2 5 . )
( 上接 25 页)
W e‘
ile d
d d e r b u r n , R
.
W
.
M Q
u a s
i
一
l ik e l ih o 司 functions , g e n e r a l -
I i
n e a r
m
o
d
e
l
s , a n
d
t
h
e
G
a u 吕s 一N e w t o n
B io m e t
r i k a 1 9 7 4 ; 6 1
: 4 3 9
.
5
·
M
e
C
u
l l
a g h
,
P
.
Q
u a s
i
一
l i k
e
l i h o od f
u n e t i o n
s .
A n n
.
1 9 8 3 书1 1 : 5 9 .
m e t h o d .
s t a t l吕 t ,
6
、 S t a n i s h , W
.
M
. ,
G i l l i
n g s
,
D
.
B
.
a n
d k oc h
,
G
.
G
.
A
n
A p p l i
e a -
t
i
o n o
f m
u
l
t i v
a r a r e r a t i o m
e t
h
o
d
s
f
o r t
h
e a n a
l y
s i
s o
f
a
l
o n g i
-
t u
d i
n a
l
e
l i
n
i
e a
l
t r i a l w i
t
h m i
s s
i n g d
a r a
.
B i
o
m
e t r i e
s ,
1 9 7 8 ;
3 4
:
3 0 5
.