军事医学科学院院刊2010年10月第34卷第5期BullAcadMilMedSci,Vol34.N05,Oct,2010
ARMA模型在胆结石病发病率预测中的应用
马亮亮,田富鹏
[摘要] 目的探讨应用时间序列自回归移动平均模型(ARMA)预测胆结石病发病率的可行性。
应用
EViews3.1软件对青海海西自治州2001~2006年逐月发病率进行ARMA建模拟合;按照残差不相关和简洁的原则
确定模型结构,依据赤池信息准则(AIC)与施瓦茨准则(sc)、拟合优度确定模型的阶数。对所得模型的残差进行
统计验证,依据残差序列图中实际值与拟合值的拟合效果确定最终模型。利用最终模型预测2007年的胆结石病
月发病率,比较预测值和实际值,检验预测效果。结果ARIMA(1,l,1)模型能够较好地拟合及预测胆结石病月发
病率值,除个别观测数据与模型预测数据相差较大外,模型所得结果与实际值非常接近。结论 ARMA模型可以
较好地模拟胆结石病发病率在时间序列上的变动趋势,可用于预测未来的胆结石病发病率趋势,是一种短期预测
精度较高的预测模型。
[关键词] 自回归移动平均模型;预测;时间序列
;胆结石病;发病率
[中图分类号] R657.4 [文献标志码] A
[文章编号] 1000-5501(2010)05-0469-04
ApplicationoftheARMAmodelinforecastoftheincidenceofcholelithiasis
MALiang—liang,TIANFu-peng
(SchoolofComputerandInformation,NorthwestUniversityforNationalities,Lanzhou730030,China)
[Abstract]0bjectiveToexploretheapplicationoftimeseriesanto-regressionmovingaverage(ARMA)modelinpre-
dictionofcholelithiasisincidence.MethodsEViews3.1softwarewasusedtoconstructtheARMAmodelbasedonthe
monthlycholelithiasisincidenceinHaixiMongolTibetanandKazakAutonomousDistrictofQinghaiprovince,fromJan
2001toDec2006诵thconsiderationofresidualun.correlationandconcision.Akaikeinforrnationcriterion(AIC),Schwarz
criterion(SC)andgoodnessoffitwereusedtodeterminethedegreeofthemodel.TheconstructedmodelWasthenapplied
topredictthemonthlyeholelithiasisincidencein2007andtheineidencefromtheARMAmodelWascomparedwiththeac—
tualincidenceSOastoevaluatethemodel7svalidity.Results(ARIMA)(1,1,1)modelcouldbetterfitandpredictthe
valueofmonthlyincidenceofcholelithiasis.exceptforsomeobserveddata.Thepredictionofthemodelw船verycloseto
t}leactualvalne.ConclusionThemodelofARMAseeln$tofitexactlythechangesineholelithiasisincideneeandtopre—
dietthefuturetrendofincidencewithahighpredictionprecisionofshorttermtimeseries.
[Keywords]ARMAmodel;prediction;timeseriesanalysis;eholelithiasis;incidence
胆结石病(eholelithiasis)又称胆系结石病或胆石症,是
胆道系统的常见病,是胆囊结石、胆管结石(又分肝内、肝
外)的总称。胆结钉病是一种古老的疾病,但经过几千年的
临床观察及研究,其真正导致结石的原}14尚未完全明确,根
据流行病学资料,发现胆结石病及其他胆道结石在病因、临
床症状、治疗、预防以及预后也不尽相同。
疾病发病率预测一直是医学研究的重要领域。在各种
疾病发病率预测中,大多数模型着重研究和预测疾病发病率
相关指标的变动趋势或变化幅度。对于此类预测模型而言,
其模型选择的关键是要使预测值和真实值之间的数量误差
[基金项目] 国家自然科学基金资助项目(60673192)
[作者简介】 马亮亮,男,硕上研究生,现就读于西北民族大学,主
要研究方向为数学模型
[作者单位] 西北民族大学计算机科学与信息工程学院,兰州甘肃
730030
最小化。近年来,已经出现越来越多的与疾病发病率相关的
研究方法。孙奕等⋯利用ARIMA预测模型对儿童伤害住
院费用进行研究,预测结果反映出了儿童伤害住院费用的变
化趋势。孙玉英∽o利用季节趋势模型对儿童呼吸系统疾病
患者的构成成分进行分析,用该模型对呼吸系统住院患者人
数进行了预测,但预测精度不高。尹志英等u1利用指数曲线
模型对甲型肝炎疫情资料进行预测,并和实际情况进行了比
较。任建国等Ho利用自回归模型(auto—regressionmodel,AR)
对柑橘溃疡病的发生情况进行预测,发现可以用AR模型很
好地模拟溃疡病不同时间段病情指数的变动趋势,并且可用
该模型预测未来的溃疡病发病趋势。
本研究中的数据是近7年的青海海西自治州地区的资
料,海西州处于我国西北高原地区,是少数民族聚集的地区,
做好该地区胆结石病月发病率的预测对高原少数民族地区
人民的健康有重要的意义。尽管国家经济文化迅速发展,卫
万方数据
470 军事医学科学院院刊2010年lO月第34卷第5期’BullAeadNilMedSei,Vol34,No5,Oct,2010
生条件得到改善,但对这类疾病的预防不够重视,数据显示,
近几年来海西州地区胆结石病的发病率有逐年增高的趋势,
开展胆结石病发病率的预测有助于医疗卫生部门加强对高
原少数民族地区胆结石病的防控工作”。J。
自回归移动平均模型(auto—regressionmovingaverage
model,AltI-IA)是应用时间序列分析中的一个重要模型,它
适用于各种领域的时间序列分析,应用于金融、气象水文、信
号处理、地震活动、土壤水分分析等方面博J。我们尝试借助
ARMA模型来预测胆结自.病发病率的变动趋势。其基本思
路是:首先根据胆结石病的发病率数据序列建立ARIVIA模
型,然后利用i亥模型对胆结石病发病率值进行追溯预测,比
较实际值与预测值,检验模型的预测效果。可以认为,如果
模型预测效果良好,则ARMA模型可用于胆结石病发病率
变动趋势预测,为胆结石病的预防和防治工作可提供一定的
理论帮助。
1 ARMA模型概述
1.1 ARMA模型的类型
AItIVIA模型是一类常用的随机时间序列模型,由Box和
Jenkins创立,也称为B-J方法,该方法不考虑以经济理论为
依据的解释变量的作用,而是依据变量本身的变化规律,利
用外推机制描述时间序列的变化,能达到最小方差意义下的
最优预测,是一种精度较高的时序短期预测方法一J。
.
ARblA模型有以下三种基本类型⋯“21。
1.1.1AR模型亦称自回归模型(auto—regressionmodel)。
时间序列用它的前期值和随机项的线性函数表示。P阶自
回归模型记为AR(p),其一般形式为:
Yt=咖l儿.1+咖2),。一2+L+咖p),。一P+占。(1)
式中,Yt为时问序列,屯(i=l,2,L,p)为待估计的自回归系
数,B为残差项。引入滞后算子B‘=^一‘饥,且令咖(B)=
1一咖。B一咖282一L一咖。矽,则(1)式可以简写为:
币(曰)儿=B (2)
1.1.2MA模型亦称移动平均模型(movingaveragemod.
e1)。时间序列用它的当期和前期的随机误差项的线性函数
表示,g阶移动平均模型记为Ilia(q),其一般形式为:
儿=占j一0I占I—I一028‘一2一L—o,eI~。(3)
式中,0;(i=1,2,L,q)为待估计的移动平均系数。引入滞后
算子B‘=6t-k触,且令0(B)=1—01B一02铲一L一以伊,则
(3)式可以简写为:
Yt=p(日)岛 (4)
1.1.3ARMA模型时间序列用它的当前和前期的随机误
差项以及前期值的线性函数表示,(p,q)阶自回归移动平均
模型记为AI泓A(p,q)。其方程的一般形式为:
儿=4bY,一I+也咒一2+L+4,pY,一,+占I一01占l-.I一如占I一2一
L一岛占。一口 (5)
引入滞后算子口,则(5)式可以简写为:
咖(B)y。=0(B)岛 (6)
1.2ARMA模型的适用条件
运用ARNA模型的前提条件是时间序列为零均值的平
稳随机过程。对于包含趋势性和季节性的非平稳时间序列,
不能直接用ARMA模型去描述,须经过适当的逐期差分或
季节差分消除其趋势后,才能对形成的新的平稳序列建立
删A(p,q)模型进行分析¨⋯。
如果原序列为非平稳时间序列,经过d阶逐期差分后平
稳,则原序列可表示为ARIMA(P,d,g)(求和自回归移动平
均模型),记为:
(b(曰)(1一B)4,,。=p(口)岛 (7)
如果原序列Yt同时包含趋势性和季节性,经过d阶逐
期差分和D阶季节差分后形成平稳序列,则原序列儿可表
示为SAPdMA(p,d,q)(P,D,Q)5模型(乘积季节ARIMA模
型),记为:
币,(露)毋,(B5)(1一曰)4(1一B5)。孔=吼(B)OQ(B5)邑
(8)
在(7)、(8)两式中,d、D分别为逐期差分和季节差分的
阶数,P、q分别为自回归和移动平均的阶数,P、Q分别为季
节自回归和季节移动平均的阶数;西。(矿)为季节触(P)部
分,(1一B)4为d阶逐期差分,(1一B5)D为D阶季节差分,
以(B)为非季节MA(q)部分,曰口(矿)为季节Ilia(Q)部分。
1.3 ARMA模型的识别与建立
建立ARNA模型,通常是利用序列的自相关函数和偏
自相关函数对序列适合的模型类型进行识别,以确定适宜的
阶数d、D、P、q、P、Q。MA(q)序列的特征是:其自相关函数PI
在I|}>q以后全部为O,即表现为口阶截尾性;其偏自相关函
数随着滞后期的增加,呈现指数或者正弦波衰减,趋向于0,
即表现为拖尾性。AR(P)序列的特征是:其偏自相关函数
咖从在||}>p以后全部为0,即表现为P阶截尾性;其自相关函
数则随着滞后期的增加,呈现指数或者正弦波衰减,趋向于
0,即表现为拖尾性。而删(p,q)序列的自相关和偏自相
关函数均表现为拖尾性,故不能用自相关或偏自相关函数来
定阶,目前较为常用的方法是AIC或sC信息准则法,即选
取使AIC值或Sc值达到最小的那一组阶数为理想阶
数‘13,14]。
建立ARNA模型的一般步骤是:首先检验序列的平稳
性和均值是否为零,若为非平稳序列,则需经过适当的逐期
差分和季节差分后再进行检验;然后利用自相关和偏自相关
函数以及信息准则等给模型定阶,选择适合模型;最后利用
得到的模型进行外推预测¨“。
2胆结石病发病率趋势建模过程分析
本文以海西州地区的胆结石病发病资料为依据,具体探
讨ARMA模型在胆结石病发病率预测中的应用。
2.1病历资料的来源
全部发病资料取自青海海西州第一人民医院。经过核
对、补漏,从而保证资料的准确和完整。运用F扭eel2003及
EViews3.1对2001年1月至2007年12月海西州地区胆结
石病发病资料进行整理分析,统计出了海西州地区2001年
至2007年的胆结石病月发病率(记为Yt),见表1。
万方数据
军事医学科学院院刊2010年lO月第34卷第5期BullAeadMilMedSei,V0l34,No5,Oct,2010 47l
袭1胆结石病发病率实际值、拟合值和预测值(单位:1150万)
时间 胆结石病拟合值 预测值 时间 且H结石病拟合值 预测值 时间 胆结石病拟台值 预测值
2001年1月2 2.2614 2003年5月2 1.8168 2005年9月9 8.9672
2月 3 3.0246 6月 3 2.8515 lO月 5 5.0160
3月 6 6.0495 7月4 3.8866 11月 3 3.0655
4月 2 2.0747 8月 3 2.922l 12月 1 1.1155
5月 l 1.1∞3 9月 2 1.9580 2006年1月3 3.166l
6月4 4.1261 lO月 6 5.9944 2月 2 2.2174
7月44.1523 11月 6 6.0313 3月 2 2.2693
8月44.1788 12月 3 3.0686 4月 l 1.3218
9月44.2056 2004年1月44.i064 5月 3 3.3750
lO月 3 3.23” 2月 2 2.1446 6月 8 8.4289
11月 3 3.2602 3月 5 5.1833 7月 7 7.镐34
12月44.2880 4月4 4.2225 8月 5 4.5385
2002年1月44.3162 5月 3 3.262l 9月 3 2.5944
2月 2 2.3447 6月 3 3.3023 10月 10 9.6509
3月 6 6.3735 7月 5 5.3429 11月 10 9.7082
4月 3 3.4027 8月 6 6.3840 12月 9 8.9672
5月 l 1.4323 9月 l 1.4257 2007年1月5 4.8247
6月44.4622 10月 3 3.4678 2月 5 4.8841
7月 l 1.4925 11月 2 1.5105 3月 10 9.9442
8月 3 3.5232 12月 3 2.5537 4月 3 3.005l
9月 1 1.5543 2005年1月7 6.5974 5月 lO 10.0666
10月 l 1.5857 2月 2 1.6417 6月4 4.1290
11月 3 2.6175 3月 2 3.6865 7月8 8.1921
12月 l 0.6497 4月4 3.7319 8月 ¨ 11.2560
2003年1月43.6823 5月 3 2.7778 9月 6 6.2069
2月 2 1.7153 6月4 3.8243 10月 3 3.0862
3月 5 4.7487 7月 1 0.8714 11月 5 5.1524
4月 1 0.7826 8月 3 2.9190 12月 7 7.1954
由序列儿(2001.1~2007.12)的折线图可知,海西州地
区胆结石病月发病率序列表现出较为明显的增长趋势。为
了对所建模型的预测效果进行检验,这里首先利用序列儿
(2001.1—2006.12)建立ARIMA模型,然后依据该模型得出
2007年1月至12月胆结石病月发病率的预测值,再比较预
测值和实际值,实际值与预测值越接近,则模型预测效果越
好。
2.2序列平稳性和零均值检验
为消除序列以的增长趋势,对其进行一阶逐期差分,记
形成的新序列为互。图l和图2分别为序列互(2001.1—
2006.12)的折线图和自相关分析图,直观地看,序列各观测
值围绕其均值上下波动,且该均值与时间t无关;自P>1和
g>l以后,样本自相关系数和样本偏自相关系数几乎都落入
随机区间,即可以认为该序列的趋势性已基本消除。
8
4
O
—d
-8
州P抓删,
E至麴墅圃
图1序列Z。的折线图
进一步计算得到,序列互均值m=-0.0238,样本
差s=O.1855,样本均值均落入士2s之间,序列均值与0无显
著差异,故不能拒绝序列互均值为0的原假设;单位根检验
relationPartlaICorrelationAC PACQ-Star
-00'19-0212 10944
01540015130∞
-0∞5-0132'4107
00120,39 1813,
图2序列zf的自相关及偏自相关分析图
的结果也进一步证实序列z。具有平稳性(ADF检验值为
一7.7285,l%的临界值为一3.5121)。由此可以认为对序列
互拟合ARMA模型是适合的。
2.3模型的选择
因为序列z。是对序列儿进行一阶逐期差分得到的,故
有d=1。由于序列互的自相关系数和偏自相关系数均呈现
出一阶截尾,因此取P=g=1比较适合。另外,由于相对于
MA和ARMA模型的非线性估计来说,AR模型的线性方程
估计较为容易,且参数意义也更便于解释,因此考虑用高阶
的AR模型替换相应的ARMA模型,故可供选择的(p,g)组
合有(1,1)和(2,O)。对上述两个初选模型的参数估计及检
验结果如表2、表3。
表2各初选模型的参数估计结果
(p,d,g) 咖l 咖2 0l
(1,1。1)0.3551一 一O.9269
(2,1,0) 一0.4082 —0.1976 —
万方数据
472 军事医学科学院院刊2010年lO月第34卷第5期BullAcadMilMedSci,Vol34,No5,Oct,2010
表3各初选模型的检验结果
由表2、表3可知,卜述模型均满足ARMA过程的平稳
性条件及可逆条件,各模型的残差也均满足独立性及正态性
假设的要求。比较而言,第一个模!l!!调整后的样本决定系数
最大,AIC值和sc值都最小,因此选择该模型即ARIMA(1,
1,1)比较适合。其展开式为:
(1-0.3551B)(1一B)Z。=(1+0.96269B)8。(9)
2.4预测及比较分析
利用模型(9)对2001年1月至2007年12月的海两州
地区胆结石病月发病率进行预测并比较,其中以前72个数
据(2001年1月至2006年12月)作为模型拟合点,用所建立
的ARIMA(1j1,1)模型对随后的12个数据(2007年1月至
12月)进行预测,然后验证ARIMA(1,1,1)模型的预测准确
率,结果见表1。
表1中ARIMA(1,1,1)模型所得预测结果与实际值的
拟合效果较好,除个别观测数据与模型预测数据相差较大
外,其余的预测值均较接近于实际值,其预测效果较好,基本
上能较好地反映胆结石病月发病率的变化趋势。因此,可以
采用ARIMA(1,1,1)模型来对胆结石病月发病率的变化趋
势进行中、短期预测。
3讨论
通过上述建模过程分析可以看出,利用ARMA模型预测
海西州地区胆结白|病月发病率的变化趋势时,由于充分考虑
了时间序列自身的发展趋势,预测结果一般要比传统“同期
比”方法的预测结果准确,当然也相对iF确客观。不过,与
“同期比”方法相比,ARMA模型方法相对复杂,同时要求发
病率序列时期数不能太少,以支持建市ARMA模型并进行预
测;另外,也存在某些具有趋势性的发病率序列,不能通过差
分而平稳,因而无法建立ARMA模璎的情况。
到目前为止,存关ARMA模型在疾病发病率发病趋势预
测上的应用报道较少,作者采用ARMA模型对胆结石病月发
病率不同时段发病趋势的变化进行建模,并做}I{预测和检
验,得到丫较精确的中短期预测模型,为青海海西州地区胆
结石病的预防和防治提供了一定的理论依据。另外,由于所
建模型是以观测数据序列为依据的,如果在预测中发现模型
的精确度大幅度下降,就要不断用新的观测数据对所建模型
进行修正,以正确掌握胆结石病的发病率变化趋势,采取必
要措施以减少胆结石病对人类的危害。
疾病发病率是疾病预防工作所参考的蕈要指标之一。
如果能够得到较为精确的该病发病率将为月H结石病的预防
工作提供科学的参考依据。时间序列分析法可在一定程度
上排除人们的主观任意性,使疾病发病率的预测转向数学
化、科学化、人工智能化m1。
【参考文献】
[1]孙奕,贾翠平,覃世龙.儿童伤害住院费用ARIMA预测模型
研究[J].数理统计与管理,2007.26(6):1124—1128.
[2]孙玉英.应用季节趋势模型对儿童呼吸系统住院患者的分析
[J].中国’『J|生统计,2007,24(3):327—328.
[3]尹志英,缪明正.指数曲线模型在预测甲肝流行趋势中的应用
[J].中国卫生统计.201)7,24(5):555.
[4]任建国。黄思良,李杨瑞,等.AR模型在柑橘溃疡病测报中的
应用[J].植物病理学报,2006,36(5):460—465.
[5]马亮亮,田富鹏.基于季节模型的海西州地区肾炎发病情况研
究[J].北京联合大学学报,2009,23(3):66—68.
[6]马亮亮,田富鹏.基于PDL模型的海西州地区胆结石发病情
况研究[J].湖南文理学院学报,2009,21(3):17—19.
[7]马亮亮,田富鹏.基于ADI。模型的海西州地区胆结石发病情
况研究[J].浙江万里学院学报。2009,22(5):6—9.
[8]潘晓君.中国棉花产量的时间序列预测模型[J].统计与决
策,2007,9(3):59.
[9]孙玉环.ARMA模型在测算重大突发事件影响中的应用[J].
统计与决策,2006,7(2):24—26.
[10]李瑞莹,康 锐.基于ARMA模型的故障率预测方法研究
[J].系统工程与电子技术,2008,30(8):1588—1591.
[11]曾勇红,王锡凡,冯宗建.基于混合自同归滑动平均潜周期模
型的短期电价预测[J].西安交通大学学报,2008,42(2):
185一188.
[12]胡军华,唐德善.时间序列模型在径流长期预报中的应用研究
[J].人民长江。2006,37(2):40-41.
[13]贾春生.ARIMA模型在马尾松毛虫发生面积预测中的应用
[J].安徽农业科学,2007,35(19):5672-5673.
[14]戴晓枫,肖庆宪.时间序列分析方法及人民币汇率预测的应用
研究[J].上海理上大学学报,2005,27(4):341—344.
[15]易丹辉.数据分析与EViews应用[M].北京:中国统计出版
社,2005:106一134.
[16]马亮亮,H|富鹏.摹于糖尿病相关因素的主成分分析[J].长
春大学学报,2009,19(8):61—63.
(扬兆弘编辑 2010—03—21收稿)
万方数据
ARMA模型在胆结石病发病率预测中的应用
作者: 马亮亮, 田富鹏, MA Liang-liang, TIAN Fu-peng
作者单位: 西北民族大学计算机科学与信息工程学院,兰州,甘肃,730030
刊名: 军事医学科学院院刊
英文刊名: BULLETIN OF THE ACADEMY OF MILITARY MEDICAL SCIENCES
年,卷(期): 2010,34(5)
参考文献(16条)
1.孙玉英 应用季节趋势模型对儿童呼吸系统住院患者的分析[期刊
]-中国卫生统计 2007(03)
2.马亮亮;田富鹏 基于糖尿病相关因素的主成分分析[期刊论文]-长春大学学报 2009(08)
3.易丹辉 数据分析与EViews应用 2005
4.戴晓枫;肖庆宪 时间序列分析方法及人民币汇率预测的应用研究[期刊论文]-上海理工大学学报 2005(04)
5.马亮亮;田富鹏 基于季节模型的海西州地区肾炎发病情况研究[期刊论文]-北京联合大学学报 2009(03)
6.任建国;黄思良;李杨瑞 AR模型在柑橘溃疡病测报中的应用[期刊论文]-植物病理学报 2006(05)
7.尹志英;缪明正 指数曲线模型在预测甲肝流行趋势中的应用[期刊论文]-中国卫生统计 2007(05)
8.李瑞莹;康锐 基于ARMA模型的故障率预测方法研究[期刊论文]-系统工程与电子技术 2008(08)
9.孙奕;贾翠平;覃世龙 儿童伤害住院费用ARIMA预测模型研究[期刊论文]-数理统计与管理 2007(06)
10.孙玉环 ARMA模型在测算重大突发事件影响中的应用[期刊论文]-统计与决策 2006(02)
11.潘晓君 中国棉花产量的时间序列预测模型[期刊论文]-统计与决策 2007(03)
12.马亮亮;田富鹏 基于ADL模型的海西州地区胆结石发病情况研究[期刊论文]-浙江万里学院学报 2009(05)
13.马亮亮;田富鹏 基于PDL模型的海西州地区胆结石发病情况研究[期刊论文]-湖南文理学院学报 2009(03)
14.贾春生 ARIMA模型在马尾松毛虫发生面积预测中的应用[期刊论文]-安徽农业科学 2007(19)
15.胡军华;唐德善 时间序列模型在径流长期预报中的应用研究[期刊论文]-人民长江 2006(02)
16.曾勇红;王锡凡;冯宗建 基于混合自回归滑动平均潜周期模型的短期电价预测[期刊论文]-西安交通大学学报
2008(02)
本文读者也读过(2条)
1. 王治华.傅惠民.WANG ZhiHua.FU HuiMin 时变序列分析方法[期刊论文]-机械强度2006,28(3)
2. 李太杰.胡光锐.LI Tai-jie.HU Guang-rui 一种自适应预测栅格编码量化语音编码算法[期刊论文]-上海交通大
学学报1999,33(4)
引证文献(1条)
1.栾培贤.肖建华.陈欣.徐强.王洪斌 基于灰色模型和ARMA模型的猪瘟月新发生次数预测比较[期刊论文]-农业工程
学报 2011(12)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsyxkxyyk201005018.aspx