第27卷第2期
2010年2月28日
计算机与应用化学
ComputersandAppliedChemistry
V01.27,No.2
February,2010
蛋白.核酸相互作用的支持向量机预测模型
袁友浪1,刘亮1,钮冰1,陆文聪¨,蔡煜东2’
(1.上海大学理学院化学系,上海,200444;2.上海大学系统生物研究所,上海,200444)
摘要:与核酸作用的蛋白质在基因功能许多方面扮演着极其重要的角色,预测蛋白质是否与核酸作用在生物信息学
领域受到广泛关注。本文用氨基酸组成、氨基酸物化特性和蛋白质结构等信息作为特征参数,通过支持向量机
预测了与核酸作用的蛋白质。分别取与rRNA,RNA和DNA作用的3个蛋白质数据集,用SVM训练,筛选最优核函
数,优化核函数参数,建立分类判别模型,并用于预测蛋白质是否与核酸作用。结果
明:即使对同源相似性低于
40%的蛋白质,通过用10·crossvalidafion(交叉验证)方法测试上述3个数据集都分别有93.75%、83.41%、81.85%的
预测正确率。用外部测试集测试所得模型分别有93.8%、84.2%、81.9%的预测正确率。在此基础上,我们建立了1
个预测蛋白质与核酸是否作用的网上在线软件系统。网址是:http://chemdata.shu.edu.cn/protein—na。
关键词:蛋白质;核酸;支持向量机;10折交叉验证;预测模型
中图分类号:TQ015.9;06-39文献标识码:A 文章编号:10014160(2010)02—155-158
1 引言
与核酸作用的蛋白质在基因功能许多方面扮演着极其
重要的角色。比如,与DNA作用的蛋白质在转录、包装、重
排、修复⋯等各种过程都起到了关键作用。与RNA作用的
蛋白质则在蛋白合成过程中通过与各种RNAs作用来控制
合成过程。因此,与核酸作用的蛋白质在过去30年来受到
分子生物学领域专家的广泛兴趣。而在生物信息学领域,与
核酸作用蛋白质的预测逐渐受到关注。
支持向量机是监督性的机器学习方法,同样可以用于蛋
白质功能预测。作为模式识别方法,支持向量机被广泛用于
各个领域拉。6J。最近支持向量机逐渐被用来解决蛋白质分
类问题,比如折叠辨识口J,亚细胞定位预测哺-9J,蛋白质结构
类型预测‘Io】,蛋白质相互作用‘n1,膜蛋白类型识别‘12。31,G
蛋白连结接受器分类n41,蛋白质功能分类n卜16】。预测结果
显示SVMs相对于其它机器学习方法在解决以上问题时具
有一定的优越性。
对予核酸与蛋白质作用预测的生物信息学研究有很多。
Cai和Lin【171用伪氨基酸成分作为参数通过支持向量机来验
证蛋白质是否与rRNA,RNA,DNA作用,交叉验证分别得
到了平均正确率为96.84%,85.74%,81.oo%,但它并没有
去除冗余序列;2003年Stawiski等H副就用人工神经网络的
方法预测与DNA作用的蛋白质;Ahmad掣”1则在只用3个
参数(整个蛋白的净电荷,偶极距,四极距)的情况下预测蛋
白质是否与DNA作用;2006年Cai脚1等则在他们以前研究
的基础上,以蛋白质序列氨基酸位置和物理化学性质作为参
数,用支持向量机建模分类。预测与rRNA,RNA,DNA作
用蛋白质的正确率分别为84%,78%,72%;Fang【2u则在只
用蛋白质一级序列的基础上来预测与DNA作用的蛋白质。
他们大多数只是单独针对DNA或RNA来建模,而没有对3
种核酸同时建模。他们也很少建立网上预报系统来评价他
们的模型。
本工作利用SVMs模型来预测与核酸(RNA,DNA,
rRNA)作用的蛋白质,并通过10一crossvalidation测试方法和
外部测试集方法验证所建SVMs模型的正确性。建模过程
中比较了SVMs选用4种核函数的优劣,并优化了所用核函
数中的参数。SVMs建模所用的特征参数综合了蛋白质序列
氨基酸组成及一系列相关物化性质,包括憎水性、预测的二
级结构、预测的溶剂可及性、
的范德华体积、极化率、极
性。结果表明所建模型能较好地预测相似性低于40%的蛋
白质¨5。。在此基础上。建立了预测蛋白质与核酸是否作用
的网上在线系统。
2材料和方法
2.1数据集
分别用“rRNA·binding”,“RNA-binding”,和“DNA-bind-
ing”作为关键词在Swiss.Prot数据库中搜索(version54.2)‘捌
分别得到12886个确定与rRNA作用蛋白质,20132个确定
与RNA作用蛋白质和17043个确定与DNA作用蛋白质。这
3个数据集作为确定与核酸作用的正数据集。然后,根据以
收稿日期:2009-04-29;修回日期:2009-06-20
基金项目:上海市重点学科建设项目资助(J50101).
作者简介:袁友浪(198l一),男,硕士研究生.
通讯作者:陆文聪,E-mail:wclu@shu.edu.cn;蔡煜东,E·nljLilIeaiyudong@stafl=_8h叽edu.en.
万方数据
156 计算机与应用化学 2010,27(2)
前研究n71用的一些关键词搜索到72331个所有确定或可能
与RNA/DNA作用的蛋白质,形成对比数据集。为了得到确
定不与核酸作用的蛋白质的负数据集,我们在Swiss-Prot数
据库中删除对比数据集中的蛋白,这样我们就得到了含有
81540个不与核酸作用的蛋白质所构成的负数据集。
对于蛋白质物化性质的计算,其序列长度大于6000aa
和小于50缸以及包括不规则核酸特征的蛋白都去除。用
CD,HITC231和PISCESt241程序删除了相似性大于40%的蛋
白,结果得到无冗余的分别与rRNA、RNA和DNA作用的蛋
白质数据集(分别含有596、2507和4876个样本)。为了达
到数据平衡,我们按照下面的方式来建立数据集:首先我们
在每个正子集中选择所有蛋白质,然后在负数据集中任意选
择2倍数量的蛋白质。组合2个数据集就产生了3个数据
集,从这3个数据集抽取20%做为测试集。最后得到3个训
练集:train.DNA(1l530)、train.RNA(6268)、train—rRNA
(1424),3个测试集test.DNA(2892)、test.RNA(1255)、
test.rRNA(357)。
2.2SⅥ订建模
支持向量机(SVM)是在统计学习理论的基础上发展起
来的新一代学习算法。最早是由Vapnik及其同事【251提出,
并由其他研究者完善‘舭271。其用于模式分类的观点可简单
地阐明如下:
设训练样本集为(,,。,x1),⋯,(),。,x。),xER“,Y∈R,则
线性可分的最优分类面问题可以表示成如下凸二次规划的
对偶问题:
^ ● n n
Imax∑口;一寺∑∑嘴,,.乃(xK)
I ‘2I _‘2l,2I
{s.t.0≤吼≤C,i=1,⋯,n
。
【 ∑d;yi=o
求解上述问题后得到的最优分类函数(SVM分类器)是:
,(x)=s即((w‘)rx+b‘)=sgII(∑口‘‘yjx?x+b‘)
这里的sgn()为符号函数。
若是非线性情况,则用核函数K(罨,鼍)=<中(毛)·垂
(再)>代替最优分类平面中的点积xX,就相当于把原特征
空间变换到了某一新的特征空间而相应分类判别函数式则
为以x)=s印[(w‘)邻(x)+b。]=8印(∑n1.^K(xi,x)
+b‘、
其中xf为支持向量,x为未知向量。
本研究用了WEKA汹3的支持向量机分类算法来建模分
类。
2.3特征参数
构建有效的特征参数来表征1个蛋白质是SVMs成功
分类的关键一步。基于以前的研究‘11,15】,对于每个蛋白序
列,特征向量是由氨基酸序列位置的代码描述及计算性的取
代基性质,包括憎水值、预测的二级结构、预测的溶剂可及性
及标准范德华体积、极性、极化率。如表I所示。
表1物理化学性质特征分布
Table1 Physicochemicalfeaturevectorsandtheirdimensionality
物化性质 特征分布dimensionsofvoctor总特征数
physieoehemiealC T D total
“composition”(C):统计简并编码后的蛋白质序列中3种氨基酸的
组成含量;。transition”(T):统计沿蛋白质序列的3种氨基酸之间的
转换频率;“distribution”(D):统计分析3类氨基酸沿蛋白质序列的
分布模式,即统计每类氨基酸含量为O%,25%,50%,75%,100%
时相对于整条氨基酸序列的分布情况。
2.4结果评价方法
我们在数据集上进行了10一crossvalidation测试,这里使
用3种指标来评价预测结果:敏感性(sermiti“ty),特异性
(specificity),正确率(accuracy):
Sensitivity=’IⅣ(’I.P+FN).
Specificity=TN/(TN+FPl.
Accuracy=(TP+TN)/(TP+TN+FP+FN).
这里,TP、,I'N、FP、FN分别表示预测结果中真阳性、真阴
性、假阳性、假阴性的数量。
3 结果与讨论
分别用rRNA,RNA和DNA3个数据集用于训练。如以
上所述,每个数据集都由正数据集和负数据集两部分组成,
其中正数据集中的蛋白质是确定与核酸作用,而负数据集是
确定不与核酸作用。这里所说的与核酸作用是指通过在
Swiss—Prot数据库中,基于同源性方法所得到的被认为与核
酸有作用的蛋白质,而不是实验证明的与核酸作用的蛋白
质。我们主要用10-crossvalidation方法和外部测试方法来评
价每个支持向量机模型。
3.1核函数的选择与核函数参数优化
决定SVM性能的因素是核函数的选取。为了建立有更
好预测性能的模型,从NormalizePolyKemel函数,PolyKemel
函数,Puk函数,RBFKemel函数中筛选出1个具有更好性能
的核函数来建模。我们的评价标准是weka输入结果中的
CorrecdyClassifiedInstances(正确分类百分率)。图1,图2,
图3分别为3个数据集的CorrectlyClassifiedInstances随着4
种核函数和惩罚因子C的变化趋势图。
由以上结果知道,对于3个数据集都用PUK核函数效
果最好。其中对于rRNA数据集来说;当C=10.0时分类效
万方数据
2010,27(2) 袁友浪,等:蛋白.核酸相互作用的支持向量机预测模型 157
0 20 40 60 gO 100
C
阮l CorrectlydaMifiedlmtaaceaVmCwith
differentkernelfunctionintheDNAdatasct.
图1 DNA数据集SVM建模时不两核函数的
C值随准确率的变化趋势
0 20 柏 60 gO 100
C
Fig2 CorrectlychmifiedImt∞cesvenmCwithdifferent
kernelfunctionintheRNAdataset.
图2 RNA数据集SVM建模时不同核函数的
C值随准确率的变化趋势
0 20 40 60 册 100
C
Fi辱3CorrectlyClassifiedIm她n嘲w哪Cwith
differentkernelfunctioninthedtNAdataset.
图3 rBNA数据集SVM建模时不同核函数的
c值随准确率的变化趋势
果最好。对于RNA数据集来说,当C=5.0时分类效果最
好。对于DNA数据集来说,当C=5.0时分类效果最好。
在以上结果的基础上。我们选定PUK核函数和以上的
参数。建模分类用10·erossvalidation方法评价结果,如表2。
表2 lO折交叉验证结果
Table2 10-cmssvalidationtestresults.
数据集
datasets
预报结果predictionrate
正确率/% 特异性/% 敏感性/%
accaracyspecifity sensitivity
由此可知,与RNA及DNA作用蛋白质的预测结果偏差
较大,这可能是其中有些蛋白质具有特殊的RNA/DNA活性
点,而其他的则投有¨“。与以上2个数据集相比,与rRNA
作用的蛋白质虽然其序列同源性一般很低,但更易被识别,
10-crossvalidation测试的正确率高达93.75%o
用外部测试集测试(如表3)发现,对核酸与作用蛋白质
的预测都达到了80%以上的正确率。这也充分验证了上面
的结果,说明通过支持向量机及用氨基酸组成和氨基酸物理
化学性质作为参数能有效找到核酸和蛋白质作用的共同因
素,并通过这个共同因素有效预测出蛋白质与核酸是否作
用。在此基础上,我们建立了1个预测蛋白质与核酸是否作
用的网上在线软件系统(网址是:http://chemda-
ta.shu.edu.cn/protein.ha)。在这个系统中,只要提交待预
测的蛋白质序列,即可预测其是否与上述3种核酸作用。
表3外部测试集验证结果
1她le3 111evalidationresultsof池t鲥.
数据集
datasets
预报准确率prediction脚
正确率/% 特异性/% 敏感性/%
accuracyspecificity sensitivity
3.3不同研究结果的比较
Stawiski等¨71用人工神经网络的方法预测与DNA作用
的蛋白质,正确率能达到81%。但他们仅仅是用1个只含
304个蛋白(54个蛋白与DNA作用,250个不与DNA作用)
的控制数据集。而且样本中蛋白质相似性仅低于35%。
Ahmad等¨川则在只用3个参数(整个蛋白的净电荷、偶极
距、四极距)的情况下预测与DNA作用,发现其正确率能有
83.9%。虽然其样本中蛋白质相似性低于25%,但其样本
容量仍然很小,只有110个蛋白。且其测试方法是用self-
consistency方法而非交叉验证方法。Cai等啪1对与rB_NA作
用蛋白质预测达到了83.98%的准确率,而本研究正确率则
大于93.7%。他们早些的研究Ⅲo虽然达到了大于95%的
正确率,但没有去除冗余数据。
4结论
在这个研究中,结果显示了由蛋白质序列氨基酸组成和
物化性质作为特征参数进行SVMs建模分类,预测与核酸作
用的蛋白质时具有很高的正确率。这关键在于低噪音数据
和有效的特征参数等。通过我们建立的模型可以很方便快
捷地预测蛋白质是否与核酸作用。最近关于与DNA作用蛋
白质预测的研究显示净电荷、电子偶极距和四极距是有效的
描述符。这为我们以后的研究提供了线索。本工作建立的
SVM模型提供了蛋白质是否与rRNA,RNA和DNA相互作
用的预测方法,但要从结构机理上解释还很难。
P把ferellCes:
1 hlscombeNM,ThorntonJandbiolMJ.Biol,2002。320(5):
991—1009.
龆
∞
讫
%
"幂,s8曩lI!弓翳娜lu茸13譬-8
科
舱
∞
蔼
%
"
基、8蕃ls
ul
tul的兰Q
j_8七oQ
舛竹s!引∞盼勰盯靳
更、嚣u善莹II絮uI∞墨u言gou
万方数据
158 计算机与应用化学 2010,27(2)
2 ChenNYandLuWC.SupportVectorMachineinChemistry.Bei-
jing:WorldScientificPublisherCo.hd,2004。(inChinese).
3 kuX,hIWC。JinSL。LiYWandChenNY.Chemometrics
andIntelligentLaboratorySystems,2006,82:8一14.
4 GuTH,LuWC,BaoXHandChanNY.SolidStateSciences。
2006,8:129—136.
5 ChenXMandRaoHB.eta1.ChemicMJournalofChineseUniver-
sities,2007,28(11):2171—2178.
6 "lisaXSandYusaZM.eta1.ChemicalJournalofChineseUniver-
sities,2008,29(1):95—99.
7 DingCHQandDubehakI.Bioinformatics,2001,17(4):349—
358.
8 ChouKC,CaiYD.JBidChem,2002,”7(48):45765—
45769.
9 HuaSandSung.Bioinformaties,2001,17(8):721.
10CaiYD。LiuXJ,XuXandZhenGP.BMCBioinformatics,
200l,2(1):3.
II BookJRand蝴DA.Bioinformmics,2001。17(5):455—
460.
12 CaiYD,ghouGPandClamKC.BiophysJ。2003,84(5):3257
—3263.
13 CaiYD,RicerdoPW,JenCHandChouKJ.Theory,2004,226
(4):373—376.
14 ZhaoXM,HuangDS。压肌gSWsadCheungYM.Computation-
alIntelligenceandBidnformafics,2006,3,4115:593-602.
15 CaiCZ,HsaLY,JiZL,ChenXandChenYZ.NuclAcids
Res,2003,3l(13):3692—3697.
16 CaiYDandDoigAJ.Bioinformatics,2004,20(8):1292—1300.
17 CaiYDend“nSL.BiochimBiophysActa,2003,1648(1—2):
127—133.
18 StawiskiEW,Gregon,tLMandMandel—GuffmundYJ.MolBiol。
2003.326:1065—1079.
19 AhmadSsadSamiAJ.MolBiol,2004,341(1):65—71.
20 YuXJ,CsaJP,CaiYD。ShiTLsadLiYX.JournalofTheoret-
icalBiology,2006,240(2):175—184.
21 FangY。OuoY,FengYsadLiM.AminoAcids,2008,34(1):
103一109.
22 http://www.ebi.∞.uk/swissprot/[DB].
23 LiW,JeroszewskiLsadGodsikA.Bioinformafics,2001,17(3):
282—283.
24WangG。DunbrackJr。R-L.Bioinformaties,2003,19(12):1589
—1591.
25 VapnlkVN.TheNatureofStatisticalLearningTheory.NewYork:
Springer,1995.
26 OsunaE,FretmdRandGiresiF.Improvedbainingalgofithmfor
supportvectormachines.NeuralNetworksforSignalProcessingVII,
Proceedingsofthe1997IEEEWorkshop,19971276—285.
27 JoachimsT.Makinghrge·scalesupportvectormachinelearning
practical.In:Scholkopf,B,Bu增%,C,Smola,A(Eds),Ad.
Van嘲inKernelMethods:SupportVectorMachines.Cambridge.
MA:M1TPress.1998.
28 http://www.weka.net.nz/[OL】.
中文参考文献
2 陈念贻,陆文聪.模式识别在化学化工中的应用[M].北京:世
界科.
5 陈晓梅,饶含兵.高等学校化学学报[J],2007,28(11):2171
—2178.
6谭显胜,袁哲明,等.高等学校化学学报[J],2008,29(1):95
—99.
Predictionofnucleicacid-bindingproteinsusingsupportvectormachines
YuanYoulan91,LiuLian91,NiuBin91,LuWencon91‘andCaiYudon92。
(1.DepartmentofChemistry,CollegeofSciences,ShanghaiUniversity,Shanghai,200444,China;2.Inst}tuteofSys·
temsBiology,ShanghaiUniversity,Shanghai,200444,China)
Abstract:Inthiswork,weintegratedSVMs,proteinsequenceaminoacidcomposition,andassociatedphysieochemicalpropertiesinto
thestudyofnucleic—acid·bindingproteinsprediction.WedevelopedthebinaryclassificationforrRNA·,RNA-,DNA-bindingproteins
thatplayallimportantroleinthecontrolofmanycellprocesses.EachSVMmodelc锄beusedtopredictwhetheraproteinbelongsto
rRNA-,RNA-,orDNA-bindingproteinclass.10-crossvalldationwasperformedontheproteindatasetsinwhichthesequencesidenti-
tywas-40%.TestresultsshowthattheaccuraciesofSVMmodelsforrRNA·,RNA-,DNA-bindingproteinsarc93.75%,83.41%,
81.85%,respectively.Thepredictionswerealsoperformedonthetestdataset.Theresultsagreewellwiththepriorknowledgeof
thoseproteinsandshowtheeffectivenessofphysicochemicalpropertiesofsequenceintheproteinfunctionprediction.Onthebasisof
ourwork.anonlineserverforpredictingthenucleicacid—bindingproteinsusingSVMwasavailableonhRp://chemdat&shu.edu.cn/
protein—na.
Keywords:protein,nucleicacid,SVMs,10-cmssvalidation,predictionmodel
(Received:2009-04-29;Redsed:2009-06-20)
万方数据
蛋白-核酸相互作用的支持向量机预测模型
作者: 袁友浪, 刘亮, 钮冰, 陆文聪, 蔡煜东, Yuan Youlang, Liu Liang, Niu Bing,
Lu Wencong, Cai Yudong
作者单位: 袁友浪,刘亮,钮冰,陆文聪,Yuan Youlang,Liu Liang,Niu Bing,Lu Wencong(上海大学理学
院化学系,上海,200444), 蔡煜东,Cai Yudong(上海大学系统生物研究所,上海,200444)
刊名: 计算机与应用化学
英文刊名: COMPUTERS AND APPLIED CHEMISTRY
年,卷(期): 2010,27(2)
被引用次数: 1次
参考文献(31条)
1.Chen X M;Rao H B 机器学习方法用于二氢叶酸还原酶抑制剂的活性预测[期刊论文]-Chemical Journal of
Chinese Universities 2007(11)
2.Gu T H;Lu W C;Bao X H;Chen N Y 查看详情 2006
3.Liu X;Lu W C;Jin S L;Li Y W and Chen N Y 查看详情 2006
4.Zhao X M;Huang D S;Zhang S W;Cheung Y M 查看详情[外文期刊] 2006
5.Cai Y D;Ricardo P W;Jen C H;Chou K J 查看详情 2004(04)
6.Cai Y D;Zhou G P;Chou K C Support vector machines for predicting membrane protein types by using
functional domain composition.[外文期刊] 2003(05)
7.谭显胜;袁哲明 Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用[期刊论文]-高等学校化学学报
2008(01)
8.陈晓梅;饶含兵 机器学习方法用于二氢叶酸还原酶抑制剂的活性预测[期刊论文]-高等学校化学学报 2007(11)
9.Hua S;Sun Z 查看详情 2001(08)
10.Chou K C;Cai Y D 查看详情 2002(48)
11.Ding C H Q;Dubchak I 查看详情[外文期刊] 2001(04)
12.Tian X S;Yuan Z M Multi-KNN-SVR组合预测在含氟化合物QSAR研究中的应用[期刊论文]-Chemical Journal of
Chinese Universities 2008(01)
13.Chen N Y;Lu W C Support Vector Machine in Chemistry 2004
14.陈念贻;陆文聪 模式识别在化学化工中的应用
15.查看详情
16.Joachims T Making largo-scale support vector machine learning practical 1998
17.Osuna E;Freund R;Giresi F Improved training algorithm for support vector machines.Neural Networks
for Signal Processing Ⅶ 1997
18.Vapnik V N The Nature of Statistical Learning Theory 1995
19.Wang G;Dunbrack Jr R-L 查看详情 2003(12)
20.Li W;Jeroszewski L;Codzik A 查看详情 2001(03)
21.查看详情
22.Fang Y;Guo Y;Feng Y;Li M 查看详情 2008(01)
23.Yu X J;Cao J P;Cai Y D;Shi T L and Li Y X Predicting rRNA-, RNA-, and DNA-binding proteins from
primary structure with support vector machines[外文期刊] 2006(02)
24.Ahmad S;Sarai A J 查看详情 2004(01)
25.Stawiski E W;Grngoret L M;Mandel-Gutfreund Y J 查看详情 2003
26.Cai Y D;Lin S L 查看详情 2003(1-2)
27.Cai Y D;Doig A J Prediction of Saccharomyces cerevisiae protein functional class from functional
domain composition[外文期刊] 2004(08)
28.Cai C Z;Han L Y;Ji Z L;Chen X and Chen Y Z SVM-Prot: web-based support vector machine software
for functional classification of a protein from its primary sequence[外文期刊] 2003(13)
29.Beck J R;Gough D A Predicting protein--protein interactions from primary structure.[外文期刊]
2001(05)
30.Cai Y D;Liu X J;Xu X;Zhou G P 查看详情 2001(01)
31.Luscombe N M;Thornton J;Mol M J 查看详情 2002(05)
引证文献(2条)
1.王锡昌.陆烨.刘源.刘太昂.陆文聪 支持向量回归算法在NIR光谱法预测带鱼糜蛋白质和水分含量中的应用[期刊
论文]-计算机与应用化学 2010(12)
2.王锡昌.陆烨.刘源.刘太昂.陆文聪 支持向量回归算法在NIR光谱法预测带鱼糜蛋白质和水分含量中的应用[期刊
论文]-计算机与应用化学 2010(12)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjyyyhx201002005.aspx