为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 基因芯片 进展

基因芯片 进展

2012-01-05 6页 pdf 519KB 30阅读

用户头像

is_518227

暂无简介

举报
基因芯片 进展 ·112· 垦堡垒塑堡堂王壁垒查2Q!Q堡垒旦笙!≥鲞蔓!塑!坐』璺i!型曼竖:△趔!垫!!:型:ji:塑!墨 基因芯片数据分析方法研究进展 梅杰杨凯 【摘要】基因芯片是生物芯片的一种,是最先研究也是最成熟的生物芯片。其产生的海量数据中隐 含着许多有价值的生物信息,人们越来越重视探索和开发用以分析这些数据的方法。目前已有统计分析、 聚类分析、自组织映射等众多的方法用于大规模的基因表达的数据挖掘整理。对基因芯片试验数据现有 的基础分析方法进行综述。并介绍一些新的分析方法。 【关键词】基因芯片; 基因表达;分析方法...
基因芯片 进展
·112· 垦堡垒塑堡堂王壁垒查2Q!Q堡垒旦笙!≥鲞蔓!塑!坐』璺i!型曼竖:△趔!垫!!:型:ji:塑!墨 基因芯片数据分析方法研究进展 梅杰杨凯 【摘要】基因芯片是生物芯片的一种,是最先研究也是最成熟的生物芯片。其产生的海量数据中隐 含着许多有价值的生物信息,人们越来越重视探索和开发用以分析这些数据的方法。目前已有统计分析、 聚类分析、自组织映射等众多的方法用于大规模的基因达的数据挖掘整理。对基因芯片试验数据现有 的基础分析方法进行综述。并介绍一些新的分析方法。 【关键词】基因芯片; 基因表达;分析方法 中图分类号:Q78 文献标识码:A 文章编号:1673--4181(2010)02-0112埘 MethodsofclassificationandanalysisofthemicroarraydataME/肛,YANG鬣以DepartmentofOral andMaxillofacialSurgery,TheFirstAffiliatedHospital,ChongqingMedicalUniversity,Chongqing400016, China 【Abstract】DNAmieroarrayisthefirststudiedandthemostmaturedformofthebio-chip,whichgenerat· edhugeamountsofdatainanumberofvaluablehiddeninformation.Scientistshaveattachedmoreimportanceto theexplorationanddevelopmentfortheanalysisofthesedata.Atpresent,manymethodshavebeenusedfor large-scalegeneexpressiondatamining,suchasstatisticalanalysis,clusteranalysisandself-organizingmap. Thispaperreviewstheexistingmethodsforanalyzingexperimentaldataeoleetedfromandintroducessomenew analyticalmethods. 【Keywords】Genechip;Geneexpression;Analysismethod 0引言 基因芯片(microarray),又称DNA芯片或DNA 微阵列,是指通过微加工技术和微电子技术,将成 千上万与生命相关的探针分子以预先设计好的排 列方式同化在固相支持物(硅片、玻片、聚丙烯酞胺 凝胶、尼龙膜等载体)的表面,组成密集二维分子排 列,通过检测每个探针分子的杂交信号强度进而获 取样品分子的数量和序列信息,以达到对样本基因 的表达水平、突变和多态性进行快速、并行、准确、 高效的检测分析。它是近几年发展起来的又一新的 分子生物学研究工具,被广泛应用于基因的表达和 调控、新基因的功能发现、疾病的诊断和预后、药靶 的发现、毒理学、微生物检测、农林业生产、食品、环 境保护和检测等领域li-3]。它综合了分子生物学、半 导体微电子技术、激光、化学、计算机科学等众多学 科领域的相关技术,使其具有高通量、快速、并行化 采集生物信息的特点问;同时,大规模、高通量的信 息获得也对“海量”数据的分析及信息的提取提出 DOI:10.3760/cma.j.issn.16734181.2010.02.012 基金项月:重庆市卫生局科研项目(03.2-073) 作者单位:400016重庆医科大学附属第一医院口腔颌面外科 通信作者:杨凯.Email:eqfyyk@yahoo.coln.cn ·综述· 了新的挑战,如基因芯片数据的标准化、样本(或基 因)间距离的度量以及样本(或基因)的监督和非监督 分类等分析方法,力图将无机的信息数据和有机的 生命活动结合起来阐释生命特征及基因功能,已经 成为生物信息学的研究课题嘲。这些探索基因功能 的新技术和新方法是目前研究的重点,新的分析工 具和方法不断产生161。本文就基因芯片实验数据现 有的基础分析方法做一个概括的,并介绍一些 新的分析方法。 1基因芯片数据的获取及标准化 芯片上的每个点包含2个数值成分:信号值和 背景值。信号值是指芯片数据的真实强度值,这些 数值能提供相关基因表达的量化信息;背景值则指 那些因不真实的生化反应导致的强度值。生物芯片 通过探针与经荧光标记的目标样品进行生物反应, 使用芯片专用检测系统,经荧光共聚焦扫描进行荧 光信号的采集,通过图形分析软件产生每个点信号 及其背景的数据,最终转化成可计算的数字信息; 但标记物的差异、标记效率、空间位置的差异、荧光 标记检测效能的差异以及样品RNA的原始浓度的 差异等,都可能对基因表达结果产生影响。因此,原 始数据需经过标准化,以消除由于系统变量引起的 万方数据 垦堕生塑匿堂王墨苤查垫!Q生垒旦笙!!鲞笙2塑丛』Ei!堂i!韭:皇西!垫!Q:!垡:!!:№:! 误差,使得基因表达数据真实地反映测量样品的生 物学差异f7】。现有的标准化方法主要有:基因中心化、 总强度标准化法、局部加权线性回归标准化法以及 局部均值标准化法等[8-91。基因芯片数据标准化后, 基因表达的变化就表示为样品标准化表达水平与 参照样品标准化表达水平的比值。 1.1基因中心化 基因中心化是把每个基因在各实验中的表达 值减去该基因在各实验中表达值的均数或中位数。 基因中心化后的值就反映了该基冈在不同序列下 的变异;但当参照基因是实验的一部分或要了解基 因差异表达的程度时,不适宜进行中心化。 1.2总强度标准化法 此方法假设2批待标记的mRNA的量相同,相 对于对照组样品,实验组的表达应既有上调也有下 调。这样,扫描所得的所有Cy5和Cy3荧光分子的 光密度值是相同的。通常用于标准化同一块芯片上 杂交的2种样品,在实际应用中,通常采用扣除所 有点的平均值(mean)或者中值(median)。 1.3局部加权线性回归标准化法 这种方法根据是否采用线性回归.分为整体平 均值法(小halmeannormalization)和强度依赖 (intensitydependent)。此方法用于标准化同一块芯 片上杂交的2种样本,并建立于以下的假设之上: 如果mRNA来自紧密相关的样本,那么大部分基因 的表达水平是相近的,因此在以Cy5和Cy3为坐标 的散点图上,这些基因应呈一直线;如果2批样本 的标记和检测效率相同,则直线的斜率也是惟一 的,那么,标准化这些数据就等于用回归的方法计 算其最适斜率。 2基因表达矩阵的构建 在基因芯片标准化后,每一个基因都可以获得 一个代表基因表达水平的数据,如“表达比(ratio)”。 “表达比”计算在芯片分析中广泛应用Ilo一,可以得 到关于基因表型、基因表达模式及其他生物过程的 定量信息。在基因表达应用中,通常利用一个实验 组样品和一个对照样品去探索感兴趣的生物学现 象。“表达比”计算的一般算法是通过2个样品间基 因与基因的比较,反映出在实验条件下基因是诱导 还是抑制。通常采用表达比的对数形式(1092ratio)能 够更直观地描述基因表达上调或下调的幅度,同时 计算机还给出直观的显色图。在样品中呈高表达的 基因其杂交点呈红色;相反,在对照组中高表达的 基因其杂交点呈绿色;在2组中表达水平相当的显 黄色,这些信号就代表了样品中基因的转录表达情 况。 由若干次芯片实验可以得到一个xxy的基因 表达矩阵,用以记录基因在不同实验条件下的表达 谱。通常菇为基因的数目,Y为实验的次数或芯片的 数目。表达矩阵也可以理解为一个表达空间,每一 次实验都代表空间中一条单独的、不同的轴,矩阵 中每一行的数据即为该基因的表达向量。对每一个 基因而言,表达向量描述了其在表达空间中的位 置。这样,一个基因就可以被描述成表达空间中的 一个点,从这个观点出发来解释基因表达,如果2个 基因在每一个实验中有相近的(1092ratio)值,那么 在表达空间中2个基因的点会非常接近;相反,则 2个基因的点会相距较远。 3差异表达基因的筛选 差异表达基因就是在若干实验组中表达水平 有显著差异的基因,也可称之为显著性基因。大多 数已发表的研究都把表达水平增高一倍或下降一 半(即l092ratio>12或≤一2)作为判断是否有表达差 异的标准⋯一31。这种简单方法判断的结果虽然可以 通过重复性实验得到可靠的验证,但却很难发现那 些在表达上有微小改变而生物学意义重要的基因¨卅。 首先由所允许的假阳性FP(falsepositive)的大 小和基因的数目m来计算口值:a=FP/m;通过重复 性实验可以计算每一个基因的尸值,并按照P值的 大小将基因排序,P模板
,研究者可以把符 合标准的生物学通路提供给BioCarta数据库。 BioCarta数据库不会检验这些生物学通路的质量, 因此其中的资源质量参差不齐,并且有许多相互重 复;然而BioCarta数据库数据最巨大,且不同于 KEGG数据库,包含了大量代谢通路之外的生物学 通路,所以也得到广泛的应用。 除以上2个大型生物学通路数据库之外,近年 来还开发了一些通路分析软件和网络平台。目前广 泛应用的通路分析软件是PathwayMiner,同时也是 免费通路分析网络平台(http:Hwww.biorag.org/index. php),由美国亚利桑那大学癌症中心建立并维护, 其最突出的特点就是信息全面,操作简便。使用者 可以在这个网站中获得单个基凶的序列、功能注释 以及有关它们编码的蛋白结构功能、组织分布等信 息。近几年国内也开发了用于通路分析的网络平台 (http://kobas.cbi.pku.edu.cn),即KOBAS(KO·based annotationsystem),其基于KEGG数据库建立,由北 京大学生命科学院开发和维护,特点是町直接采用 基因或蛋白质的序列录入基因,并对录入的基因列 表进行注释。 5.3基因调控网络分析 通路分析法是芯片功能分析的有力工具之一。 在生物反应的过程中,发生表达变化的基冈通常存 在于由许多调控因子和通路参与的复杂调控网络 中。生物调控网络十分复杂,现阶段并没有现成的 文献和数据库可供参考。如果把芯片中发生表达变 化的基因放在生物调控网络的水平来看,它们通常 在多个通路中都有分布,而且每个通路一般包含几 个发生表达变化的基因。这就解释了为什么有些通 万方数据 垦堕生塑堕堂三矍塑查!Q!Q堡垒旦蔓塑鲞箜2塑丛』曼i!堂4曼竖:垒世!垫!!:!堂:!!:坠:! 路只有部分基因表达发生变化,而且表达变化的趋 势在整个通路水平上不一定是一致的。 进行生物调控网络的研究需要更多的数据库 及分析工具的支持。比如需要关于基因组调控序列 (启动子和增强子)的信息,现在已经有许多关于转 录因子结合位点(transcriptionfactorbindingsite, TFBS)的数据库可以满足这个要求,如TRANSFAC 及JASPAR。转录调节控制基因表达、调控在不同组 织中的细胞在各种生理条件及外界刺激下的反应。 细胞的转录调节涉及大量转录因子的相互作用,而 且基因组调控序列不只位于启动子,还包括内含子 及许多基因下游序列,所以真正了解真核细胞的基 因调控网络是一项非常艰巨的工作,用基因调控网 络来分析基因芯片数据还需要更多信息及技术的 支持。 6分析结果的检验及生物学意义 基因芯片实验结果必需经过重复实验或结果 验证才能被接受,目前常用的验证方法是荧光实时 逆转录聚合酶链反应(real.timefluorescentquantita. tivepolymerasechainreaction,RT.PCR)田嘲。RT—PCR 技术具有灵敏度高、易操作性、能够快速提供准确 可靠的定量结果等特点,但对于探索基因表达的生 理改变以及验证基因芯片结果而言,目的基因的相 对定量对于大多数实验来说己经足够。 对基因芯片实验所得结果,还必须进行参数法 和非参数法的统计学检验。前者受数据本身的影响 较大,后者无此影响,但是对数据变化不甚敏感。在 得到统计分析结果之后,接下来还要分析生物学意 义,进而创立新的假说。但在统计学分析结果的基 础上进行此项工作甚为困难,因为不仅由于芯片上 所吸附的DNA片段常常是未知基因,即使是已知 基因,其功能也往往尚未完全了解,这就还需要借 助概率相关模型、GenMAPP等方法来探索隐藏在数 据后的生物学意义。 7基因芯片数据分析的应用及前景 目前基因芯片技术及其数据分析已成功应用 于许多领域,但基因芯片技术仍处于发展阶段。随 着该技术的发展和完善,将产生“海量”数据,对于 这些数据快速、合理地分析,发现其中所隐藏的生 物信息,是一项重要而艰巨的工作。随着统计学、生 物信息学、计算机科学等学科的发展与结合,将为 基因芯片数据信息的提取和分析提供新的思路和 方法。随着后基因组时代的到来,如何发展有效的 实验设计及数据分析方法,从这种包含序列结构和 功能信息的数据海洋中筛选与某一特定生命现象 相关的基因及其功能,将成为科学家的重要研究任 务。在后基因组时代科学研究的推动下,基因芯片 技术将会得到更快的发展和更广泛的应用,用一个 基因芯片即可完成一个个体全部基因的检测、疾病 相关基因的筛选并能提供疾病诊断、相关疾病预防 及治疗指导的设想将有望实现。 参考文献 【1】 KratzJRJablonsDM.Genomicprognosticmodelsinearly—stage lungcaneetfJ】.ClinLungCancer,2009,10(3):151·157. [21AloasoR,DefescheJC,TejedorD。eta1.Geneticdiagnosisoffamil- ialhypercholesterolemiausingaDNA-arraybasedplatform[J].Ciin Biochem,2009,42(9):899-903. 【3】HuehnS,MalornyB.DNAmicroarrayformolecularepidemiologyof Salmonella[J].MethodsMolBi01.2009.55l:249—285. [41ThomassenGO,RoweAD,Lase∞nketa1.Customdesignand analysisofhigh—densityoligonueleotidebacterialtilingmicroarrays 叨.PLoSONE,2009,4(6):e5943. 【5】ReimersM.Statisticalanalysisofmiemarraydata[J].AddictBiol, 2005,10(1):23·35. 【6】CapobiancoE.Aliasingingenefeaturedetectionbyprojectivemeth- ods[J].JBioinformComputBiol,2009,7(4):685—700. 【7】BocsT,NeuhauserM.Normalizationforaffyraetrixgenechips[J]. MethodslnfMed,2005,44(3):414-417. 【8】8 YangYun-feng,ZhuMeng-xia,WuLi—you,eta1.Assessmentofdata processingtoimprovereliabilityofmicroarrayexperimentsusing genomieDNAreference[J].BMCGenomics,2008,9(Suppl2):s5. [91 CahanP,RovegnoF,MooneyD,eta1.Meta—analysisofmicroarray results:challenges,opportunities,andrecommendationsforstan— dardization[J].Gene,2007,401(1—2):12-18. 【10】SuzukiA。ShibataT,ShimadaY,eta1.IdentificationofSMURF!as apossibletargetfor7q21.3—22.1amplificationdetectedinapancre— aticcancercelllinebyin··housearray··basedcomparativegenomie hybridization[J].CancerSci,2008,99(5):986-994. 【11】TaoWen-jing,MallardB.Differentiallyexpressedgenesassociated withStaphylococcusaureusmastitisofCanadianHolsteincows[J]. VetImmunollmmunopathol。2007,120(3-4):201-211. f12JTowsendKTrevinoV,FaleianiF’eta1.IdentificationofVOR-re— sponsivegenesignaturesinbreastcancercells[J].Oneology,2006, 71(1·21:11 1-123. 【13】MaZu-heng,PortwoodN,BrodinD,eta1.Effectsofdiazoxideon geneexpressioninratpancreaticisletsarelargelylinkedtoelevated glucoseandpotentiallyservetoenhancebeta-cellsensitivity[J].Di— abetes,2007,56(4):1095-1106. 【14]SmythGK,YangYH,SpeedT.StatisticalissuesincDNAmicroar- raydataanalysis[J].MethodsMolBiol,2003,224:i11-136. 【15】YeungKY,HaynorDR,RuzzoWL.Validatingclusteringforgene expressiondata[J].Bioinformatics,2001,17(4):309—318. 【16】ChenXin.Curve-basedclusteringoftimecoursegeneexpression datausingsemorganizing舢惮Ⅲ.JBioinforraComputBiol,2009, 7(4):645·661. 【17】TritehlerD,ParkhomenkoE,BeyeneJ.Filteringgenesforcluster andnetworkanalysis{j].BMCBioinformaties,2009,10:193. f】8】BrasamA.Minimuminformationaboutamicroarrayexperiment 万方数据 垦匿生塑匿堂王矍垄查垫!Q堡垒旦箜垫鲞筮!塑!堕』曼也堕d垦磐:△哑!垫!垒!型:!互№:! mIAME)---successes,failures,challenges[J1.ScientificWoddJour- hal.2009.9:420—423. 【19】McCormickMR,SeizerRR,RichmondTA.Methodsinhi【gh-resolu- tion,array—basedcomparativegenomichybridization[J].Methods MelBiol,2007,381:189—211. 【20】XiongHui·lin,ZhangYa,ChenXue-wen.Data-dependentkernel machinesformicroarraydataclassification册.IEEE,ACMTrans ComputBiolBioinform,2007,"):583—595. 121】XiaoJing,WangXue-feng,XuChen-wu.Goneclusteringanalysisof DNAmieroarraydata【J】.ShengWuYiXueGongChengXueZaZhi, 2008,25(3):729—733. 【22】HuangDe-sheng,PanWei.Incorporatingbiologicalknowledgeinto distance--basedclusteringanalysisofmicroarraygeneexpressionda·- taIJJ.Bioinformatics,2006,22(10):1259·1268. 【23】BindeaG,MlecnikB,HacklH,eta1.ClueGO:aCytoscapeplug—in todecipherfunctionallygroupedgeneontologyandpathwayannota- finnnetworks[J】.Bioinformaties。2009,25(8):1091—1093. 【24】YangJO,CharnyP,LeeB,eta1.GS2PATH:Aweb-basedintegrated analysistoolforfindingfunctionalrelationshipsusinggeneontology ·117· andbiochemicalpathwaydata[J].Bioinfonnation,2007,2(5):1蚪 196. 【25】TaziKA,QuiocJJ,Abdel—RazekW,eta1.Proteinarraytechnology toinvestigateeytokineproductionbymonocytesfrompatientswith advancedalcoholiccirrhosis:anexvivopilotstudy[J].HepatolRos, 2009,39(7):706-715. 【26】DossMX,WinklerJ,ChenShu_hua,eta1.Globaltranseriptome analysisofmurineembryonicstemcell
/
本文档为【基因芯片 进展】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索