nullnull生物化学与分子生物学系 陈瑜Genomes and Genomics第一章
绪论第一章
绪论基因及基因组学的发展历史基因及基因组学的发展历史1860至1870年奥地利科学家 Gregor Mendel根据豌豆杂交实验提出遗传因子概念,并总结出孟德尔遗传定律。一、遗传因子一、遗传因子 孟德尔提出:
生物的遗传性状是通过“遗传因子” (hereditary factor)进行传递的;
遗传因子是一些独立的遗传单位。
孟德尔把可观察的性状和控制它的内在的遗传因子区分开来。
遗传因子作为基因的雏形名词诞生了。二、基因二、基因1909年,丹麦遗传学家约翰逊在《精密遗传学原理》一书中根据希腊语“给予生命”之义,创造“基因”(gene)一词来代替孟德尔假定的“遗传因子”。从此基因便成为遗传因子的代名词一直沿用至今。Wilhelm Ludwig Johannsen
(1857~1927)三、基因结构与功能的探索三、基因结构与功能的探索 1、基因在哪里?
在孟德尔的成果获得承认后,生物界都知道是遗传因子(即基因)决定了生物的性状。但是,基因究竟在细胞内的什么地方?摩尔根以果蝇为试验对象回答了这一问题,基因在染色体上。Thomas Hunt Morgan
(1866~1945)null 摩尔根在《基因论》中绘制了果蝇基因位置图,首次完成了当时最新的基因概念的描述:
基因是在染色体上呈线性排列的遗传单位,它不仅是决定性状的功能单位,也是一个突变单位和交换单位。
至此,人们对基因概念的理解更加具体和丰富了。 nullThoman Hunt Morgan
( 1866~1945)
因发现染色体的遗传
,创立染色体遗传理论而于1933年获诺贝尔生理学医学奖null2、基因的化学本质是什么?
基因的化学本质是核酸而不是蛋白质
3、基因的结构是什么?
1953年沃森和克里克提出著名的DNA双螺旋分子结构模型。nullAvery实验:
DNA是转化要素的
活性组分,确定
基因由DNA组成null赫尔歇(Hershey A.)等用同位素32P和35S验证DNA是遗传物质。nullnullJames Dewey Watson
( 1928~) Francis Harry Compton Crick
( 1916~) 1953年,DNA双螺旋结构模型被提出来了,两位创立者是美国生物化学家沃森(James Dewey Watson,1928~)和英国生物物理学家克里克(Francis Harry Compton Crick,1916~2004)。获1962年的诺贝尔生理学医学奖。 null1986年美国约翰·霍普金斯(Johns Hopkins)大学著名人类遗传学家和内科教授麦克库塞克(McKusick)造出了“基因组学”(Genomics)这个名词,意指从基因组水平研究遗传的学科。null 在人类基因组计划(HGP)的影响下,分子生物学的主要目标已经从传统的单个基因的研究转向对生物整个基因组结构与功能的研究。生命科学正从全新的视觉角度研究与探讨生长与发育、遗传与变异、结构与功能以及健康与疾病等生物学与医学基本问题的分子机理,并形成了一门新的学科分支-- 基因组学。(Genomics)(Genomics)第二节基因组学null 基因组(genome)
泛指一个有生命体、病毒或细胞器的全部遗传物质;在真核生物,基因组是指一套染色体(单倍体)DNA。即物种全部遗传信息的总和。 物种遗传信息的“总词典”
控制发育的“总程序”
生物进化历史的“总档案”一、基因组概念“基因组(genome)”一词是1920年Winkles从GENes和chromosOMEs组成的。人体细胞的核型(Spectral Karyotype) “基因组(genome)”一词是1920年Winkles从GENes和chromosOMEs组成的。一些模式生物的基因组大小一些模式生物的基因组大小基因组的大小(C值)基因组的大小(C值)null 什么是C值?
--通常是指一种生物单倍体基因组DNA的总量. 在真核生物中,C值一般随着生物的进化而增加,高等生物C值一般大于低等生物。
C值悖理(Cvalue paradox):
对原核生物和低等真核生物而言,单倍体基因组DNA的量和形态复杂性相关。nullC值矛盾:指一个有机体的C值和其编码能力缺乏相关性。
如:
--爪蟾的基因组大
小和人类相似;
--两栖类最小基因组
和最大的基因组之
间相差约100倍;
--C值矛盾在进化中
的原因和机制尚不
清楚。病毒基因组 病毒基因组 1.结构简单,基因组小,所含基因少。
2.基因组可由DNA组成,也可由RNA组成,但不能共存于同一病毒。
DNA病毒:多数为双链(ds)、环状或线性;
RNA病毒:多数为单链(ss)、线性; null3.相关基因丛集。
DNA序列中功能相关的RNA和蛋白质基因,丛集在基因组的一个或几个特定部位,形成一个功能单位或转录单位,可被一起转录成为多顺反子mRNA。
4.常见重叠基因现象。
5.非编码区少,重复顺序少。null蛋白D蛋白Enull 单链环状DNA病毒噬菌体phiX1741977,Sangernull乙型肝炎病毒(HBV) 开环部分双链DNA病毒nullnull. 禽流感病毒(H5N1) avian influenza A virus 单链RNA病毒null人类免疫缺陷病毒(HIV)
(human Immunodeficiency virus ) 逆转录病毒(单链RNA病毒)null原核生物基因组null1.基因组通常仅由一条环状双链DNA分子组成。
其DNA是与蛋白质结合,不形成染色体结构,只是习惯上将之称为染色体。细菌染色体DNA在胞内形成一个致密区域,即类核(nucleoid),类核无核膜将之与胞浆分开。
2.功能相关的几个结构基因往往串联排列在一起组成操纵子结构,受上游共同的调控区控制。
3.原核生物基因组中基因密度非常高,结构基因是连续的多为单一拷贝。 原核生物基因组结构与功能的特点null4.结构基因无重叠现象,基因组中任何一段DNA不会用于编码2种蛋白质。
5.在原核生物基因组中含有编码同工酶的基因。
6.在不同原核生物基因组中GC含量变化很大。
7.原核生物基因组的非编码区内主要是调控序列。
8.细菌基因组中的可移动成分能产生转座现象。
9.除细菌染色体外,还有能自主复制的双链环状DNA分子,称为质粒。nullnull类核(nucleoid):细菌染色体在 细胞内形成的一个致密区域大肠杆菌细胞结构null 大肠杆菌染色体DNA 由一条环状双链DNA分子组成, 通常只有一个DNA复制起点。null 质粒DNA质粒是存在于细菌染色体外的,具有自主复制能力的环状双链DNA分子;大小为几kb。null真核生物基因组null真核生物和原核生物基因
达的对比真核生物基因组结构与功能特点 真核生物基因组结构与功能特点 1、真核生物基因组的化学本质为DNA,多与蛋白质结合形成染色质,基本结构单位为核小体。每一种真核生物都有一定的染色体数目,除配子为单倍体外,体细胞一般为双倍体,即含两份同源基因组,而原核生物的基因组则是单拷贝的。真核生物基因组结构与功能特点 2、基因组远大于原核生物,结构复杂,基因数庞大,具有许多复制起始点,每个复制子大小不一。
3、基因不存在操纵子结构,功能相关基因分散在不同的染色体上。基因都由一个结构基因与相关的调控区组成,转录产物为单顺反子,即一分子mRNA只能翻译成一种蛋白质。
真核生物基因组结构与功能特点 真核生物基因组结构与功能特点 4、基因组中有大量低度(重复频率<103)、中度(重复频率<105)和高度重复序列。
5、基因是不连续的(断裂基因),由外显子和内含子镶嵌排列而成。基因转录的初级产物需经一定的加工,切除内含子使外显子拼接,才能形成成熟的mRNA。
6、非编码区(占90%以上)远大于编码区。真核生物基因组结构与功能特点 真核生物基因组结构与功能特点 7、功能相关的基因构成各种基因家族,它们可串联在一起,亦可相距很远,但即使串联在一起的成簇的基因也是分别转录的。
8、基因组中也存在一些可移动的遗传因素,这些DNA顺序并无明显生物学功能,似乎为自己的目的而组织,故有自私DNA之称,其移动多被RNA介导(如在哺乳动物及人类基因组中发现的逆转座子),也有被DNA介导的(如在果蝇及谷类中发现的DNA转座子)。真核生物基因组结构与功能特点 null
人类基因组和基因组学 基因组(genome)
生殖细胞含1套基因组 1套来自父本生殖细胞
体细胞含2套基因组 1套来自母本生殖细胞null人类染色体基因组
完整的人类基因组包含:
1-22号常染色体
核基因组 X和Y染色体 线粒体基因组nullnull人类线粒体基因组2个rRNA基因和22个tRNA基因,13个编码蛋白质基因,编码序列占93%。人类基因组结构特点人类基因组结构特点1、前述的真核基因组的结构特点基本上都适用于人类基因组。
2、基因组DNA有30亿个碱基对(3×109bp),约有2.8万个基因,目前已定位的有2000个。
3、编码序列只占基因组总DNA量的5%以下,非编码区占95%以上,大量为重复序列。null重复序列1.高度重复序列:重复频率 >105,通常这些序列的长度为6-200bp,如卫星DNA;
2.中度重复序列:重复频率 101-105,重复单位平均长度约300bp占基因总量的35%。(rRNA gene, tRNA gene, 组蛋白gene );
3.单拷贝基因:单拷贝序列(unique sequence)亦称非重复序列(nonrepetitive sequence)在一个基因组中只有一个拷贝或2-3个拷贝。多数编码蛋白质的基因。null人类基因组中的DNA多态性人类基因组中的DNA多态性 每个人之间基因组并不完全相同,称基因组的多态性,表现在DNA的序列上。统计表明,任意两个人之间的DNA核苷酸差异约占基因组的0.01%,就是这基因组中0.01%的差异,决定了人类的遗传多样性,如有人易生病,而有人却对疾病的免疫能力特别高;有些药物,有人用了就灵验,有人就不灵验。
从不同个体DNA序列差异上阐明人类基因组的多态性,才能真正了解与疾病特别是多基因疾病有关的遗传机制,同时深入准确地了解人类起源、进化和迁徙过程中的DNA序列变化。null 基因组学(genomics)
发展和应用DNA制图、测序新技术以及计算机程序,分析生命体(包括人类)全部基因组结构及功能。以整个基因组为研究对象,而不是以单个基因为单位作为研究对象。二、基因组学概念及范畴null基因组学(Genomics)
简单地定义为研究基因组结构和功能的科学。
具体:指以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。 包括对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析。基因组学(genomics)基因组学(genomics)1986年提出,至今20年,已经发展成为遗传学中最重要的分支学科。
对物种的所有基因进行定位、作图、测序和功能分析。基因组学研究的最终目标基因组学研究的最终目标 获得生物体全部基因组序列
鉴定所有基因的功能
明确基因之间的相互作用关系
阐明基因组的进化规律 null基因组学包括3个不同的亚领域
结构基因组学(structural genomics)
功能基因组学(functional genomics)
比较基因组学(comparative genomics) 基因组学概念null结构基因组学
(structural genomics) 结构基因组学(structural genomics) 是通过HGP的实施来完成的。null人类基因组计划nullnull当我们陶醉于以前的科学成就时,却突然发现了人类对自身的认识太少了。
人的生老病死究竟是由什么决定的?我们基本上没办法解答这个问题。更重要的是,人类面对一些疾病,有时显得束手无策,这迫切需要人类去认识了解自身。对生命的激情
对生命的探索nullnull背 景背 景20世纪初期,人类发现了生命的基本规律之一遗传规律。
50年代初,英国和美国的科学家提出遗传物质DNA的双螺旋模型。
70年代开始的DNA克隆技术
与此同时,我们还发现,几乎人类所有的疾病和基因有关系。null生命的奥秘蕴藏于 “四字天书”之中…GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA
TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT
CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTCATCTC
GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT…人类基因组计划——人类基因组计划—— 解读与生、老、病、死有关的遗传信息(基因)的“四字天书”;
总“字”数:30 多亿个;
“字 母”:4个。简 介简 介人类基因组计划(human genome project, HGP)是由美国科学家Renato Dulbecco于1985年率先提出,于1990年正式启动的。
美国、英国、法兰西共和国、德意志联邦共和国、日本和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。
这一计划旨在为30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息。null 人类基因组计划(Human genome project)于1990年启动,我国于1999年加入该计划,承担其中1%的任务,即人类3号染色体短臂上约30Mb的测序任务。 null1975年,获诺贝尔生理医学奖研究肿瘤病毒和细胞遗传物质之间相互作用 null “人类基因组计划”与“曼哈顿原子弹计划”、“阿波罗登月计划”一起,并称为人类自然科学史上的“三大计划”,是人类文明史上最伟大的科学创举之一。null20世纪人类科技发展史上的三大创举 90年代人类基因组计划40年代第一颗原子弹爆炸60年代人类首次登上月球null 人类基因组计划是一个合作计划
6个国家的16个中心上千名科学家参加。其中美国占54%的份额,英国占33%,日本占7%,法国约占3%,德国约占2%,中国占1%。每个国家所占的份额同该国的生物产业水平成正比。
为什么选择人类的基因组进行研究?
因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。 null在HGP中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
HGP的最初目标:15年内(1990-2005)投入30亿美元,完成人类24条染色体的30亿个核苷酸序列分析
HGP的终极目标是解码生命、了解生命、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。 null竞争与合作竞争与合作人类基因组计划的进展并不是一帆风顺的。以全球合作、数据共享为主旨的国际人类基因组计划面临着来自私营公司Celera强有力的挑战。Celera公司简介Celera公司简介Celera公司建立于1998年5月,位于美国马里兰州的Rockville,由PE公司和J. Craig Venter博士共同创建。Craig Venter博士曾是基因组研究所(The Institute for Genomic Research ,TIGR)的创建者和领导人.
Celera的本意来自拉丁语的“快速”,因此Celera公司一直致力于开发基因组信息并使之商业化,以加速生物技术的发展和应用。目前Celera公司已针对已有的功能基因组和蛋白质组信息开发出一套新的数据库及服务系统,为相关研究工作提供有力的工具和服务。 null* Craig Venter博士采用散弹法于Science上发表结果。人类基因组计划大事记人类基因组计划大事记1990年10月 被誉为生命科学“阿波罗登月计划”的国际人类基因组计划启动。
1998年5月 组建Celera遗传公司,国际人类基因组计划展开竞争。
9月 中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%
12月1日 国际人类基因组计划联合研究小组宣布,他们完整地译出人体第22对染色体的遗传密码。null2000年4月末 我国科学家按照国际人类基因组计划的部署,完成了1%人类基因组的工作框架图。
5月8日 由德国和日本等国科学家组成的国际科研小组宣布,他们已经基本完成了人体第21对染色体的测序工作。
6月26日 各国科学家公布了人类基因组工作草图。2000年6月26日
值得载入人类自然科学史册的一个日子2000年6月26日
值得载入人类自然科学史册的一个日子 国际“人类基因组计划”协作组 6 国 16 中心于当日 18:00(北京时间)同时宣布: 人类基因组计划“工作框架图”胜利完成null二000年六月二十六日克林顿宣布
人类基因组草图绘制完成null美国国家人类基因组研究所所长
弗朗西斯·柯林斯在介绍情况。人类基因组草图基本信息人类基因组草图基本信息由31.65亿bp组成
含3~3.5万基因
与蛋白质合成有关
的基因占2%人类基因组nullnull2000年6月公共领域测序计划工作框架图null 2000 年 12 月美、英等国科学家宣布绘出拟南芥基因组的完整图谱,这是人类首次全部破译出一种植物的基因序列。nullInitial sequencing and analysis of the human genomeInternational Human Genome Sequencing ConsortiumNATURE VOL 409 15 FEBRUARY 2001
860-921nullThe Sequence of the Human Genome16 FEBRUARY 2001 SCIENCE VOL 291 1304-1351Celera Genomicsnull人类染色体DNA大小null人类基因组计划* 耗时10载,耗费20余亿美元;
* 基因组大小30亿碱基;
* 1%为外显子,99%为内含子和重复序列;
* 表达蛋白质的基因组数量约为3万;
* 约含100万个单核苷酸多态性(SNP)标记。 HGP的科学目标: 是测定组成人类基因组的全部DNA序列,从而为阐明人类所有基因的结构与功能,解码人类生命奥秘奠基。
HGP的基本任务: 构建人类基因组遗传图,物理图,转录图,序列图,为最终完成基因图打下基础。HGP的技术成果:
HGP的技术成果:
主要体现在对人类基因组整体结构的认识,即人类基因组遗传图、物理图、转录图、序列图的完成,从而奠定了人类结构基因组学基础。而人类基因图的完成,仍有大量工作要做。 null人类基因组计划的意义null 1990年,国际人类基因组计划启动;
基因组计划具体分为:
① 构建基因组的遗传图谱;
② 构建基因组的物理图谱;
③ 绘制基因组的转录本图谱;
④ 测定基因组DNA的全部序列;
⑤ 分析基因组的功能。null最后一个五年计划的主要目标是:
①得到标记间距为1厘摩(1厘摩=重组频率为1%的两个基因间的遗传距离)的遗传图谱;
②得到至少有30万个序列标记位点(STS)的物理图谱,1998年10月实际已经有5.2万个STS被作图;null③2001年得到人类基因组序列的“草稿”,2003年得到最后“定稿”;
④测序能力要达到每年500Mb(1Mb=1000kb),每个碱基对的分析费用要少于25美分,支持毛细管阵列电泳、DNA芯片等的测序技术的发展;
⑤增加测定人类基因组变异的
,得到10万个作图定位了的单核苷酸多态性(SNP);null⑥得到所有基因的全长cDNA;
⑦发展在基因组尺度上分析生物功能的技术;
⑧在模式生物基因组研究方面,大肠杆菌、酵母菌、短小丽杆线虫的全基因组序列已经全部完成并发表公布,到2002年完成果蝇的全基因组序列,2005年完成小鼠的全基因组序列。 null除了具体的测序目标外,HGP的另一个重要内容是研究人类基因组计划的论理学、法学和社会学影响与后果,发展生物信息学和计算生物学也是HGP的重要内容。null 我国的人类基因组计划(CHGP)是于1993年启动,由国家自然科学基金委员会、国家高技术计划(863)和国家重点基础研究计划(973)所共同资助的。
根据实际情况,我国HGP的初期目标主要是充分利用我国丰富的人类遗传资源,进行基因组多样性和疾病基因识别的研究。null格雷(H.Gray) 绘制了第一张人体解剖图,解开了许多人体奥秘,为近代医学的发展奠定了基础。
人类基因组计划将最终绘制出人体的第二张解剖图,从基因水平上揭示出人体的奥秘,奠定21世纪医学和生物学飞跃发展的基础。 null 这张解剖图将包括4张小图,包括了人类基因组计划的全部主要内容;
它们分别是遗传图(连锁图)、物理图、转录图和序列图。
人类基因组计划的主要目标图示转录图HGP的主要任务四张图:
遗传图、物理图
转录图、序列图
HGP的主要任务null 遗传图谱(genetic map)或连锁图谱(linkage map):
是以在某个遗传位点上具有多个等位基因的遗传标记作为“路标”,以遗传学上的距离即两个遗传位点之间进行交换、重组的百分率cM作为“图距”,反映基因遗传效应的基因组图。
1)根据重组频率来确定突变点之间的距离。
2)通过测量基因组DNA位点间的重组来绘制。(一) 遗传图谱(genetic map)null 遗传图谱是应用遗传学技术构建能显示基因以及其它序列特征在基因组上位置的图。
方法是以多态的遗传标记作为界标,计算细胞减数分裂过程中遗传标记之间发生重组的频率,来确定两个遗传标记在染色体上的相对位置。
遗传学技术对人类是检查家族史。
遗传标记之间的相对距离即图距以厘摩
(cM,厘摩尔根,centi-Morgan)为单位。
当两个遗传标记之间的重组值为1%时,图距即为1cM。null两对等位基因之间重组互换的频率即遗传距离10cM10%遗传图谱(genetic map)遗传图的局限性:遗传图的局限性:分辨率有限
– 高等真核生物子代数量有限,只有少数的减数分裂事件可供研究,连锁分析的分辨率受很大限制
– 人类基因组测序
每100kb有一个标记,1996
年发表的人类遗传图达到每0.6Mb一个标记
(1Mb=1000kb)
精确度较低
– 假设交换是随机发生的,但由于交换热点的存在
使某一区段的交换频率远高于其它区段,无法绘制
精确的遗传图。null遗传图谱(连锁图)的构建 图谱标记
图谱构建中需要可以鉴别的标记(marker),在构建遗传图谱中,可用基因和DNA作为标记。
(1) 基因标记 (2) DNA标记
null① 基因标记:基因控制性状的表现,利用可鉴别的形态、生化等表型性状作标记→根据连锁交换原理来分析基因之间的连锁关系和遗传距离→绘制连锁图谱。 缺点:基因数目有限,所构建的遗传图谱不详细,标记间的遗传距离较大。② DNA标记② DNA标记简称分子标记,以DNA序列的多态性作为遗传标记;
优点:
不受时间和环境的限制
遍布整个基因组,数量无限
不影响性状表达
自然存在的变异丰富,多态性好
共显性,能鉴别纯合体和杂合体null多态性:人的DNA序列上平均每几百个碱基会出现一些变异(variation),并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。
由于不能对人类进行“选择性”婚配,而且人类子代个体数量有限、世代寿命较长,呈共显多态性的蛋白质数量不多,等位基因的数量不多。DNA技术的建立为人类提供了大量新的遗传标记。
遗传标记有三代:DNA遗传标记DNA遗传标记null 第一代DNA遗传标记:
—— RFLP(限制性片段长度多态性)
DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。nullRFLP产生的原因
是DNA顺序上某个碱基发生突变,如单个碱基置换,或少数碱基缺失、重复、插入,使突变部位的DNA序列产生或丢失某种限制性内切酶位点,当用该限制性内切酶消化此DNA时,使DNA限制性片段长度发生变化,产生与正常不同的限制性片段。 null 一对同源染色体的两个DNA分子,一个具有某种酶切位点,另一个无此位点,酶切后形成的DNA片段长度就有差异,即RFLP,根据该等位基因的遗传,将RFLP作为标记定位在基因组的某一位置上。 RFLP表现为共显性遗传。3RFLP分析RFLP分析nullRFLP片断可被某些限制性内切酶特异识别并切割。DNA序列的改变甚至是一个碱基的改变,将会改变限制性内切酶酶切片段的长度变化,并可通过一种称为凝胶电泳的方法来方便地显示这种长度的“多态性”。
RFLP在整个基因组中都存在,根据对RFLP片段的多态性分析,可对某些疾病进行诊断并将与疾病有关的基因进行定位。
但RFLP提供的信息量有限,在检测RFLP片段时需用到放射性同位素,不太安全。 null 第二代DNA遗传标记:
利用了存在于人类基因组中的大量重复序列:
-重复单位长度在15-65个核苷酸左右的小卫星DNA;
-重复单位长度在2-6个核苷酸之间的微卫星DNA,又称为简短串联重复(STR、STRP或SSLP)。null 小卫星DNA — 由15~65bp的基本单位串联重复而成,长度一般不超过20kb。主要分布在染色体末端(端粒区域)。重复次数(小卫星DNA区的长度)在人群中是高度变异的;按照孟德尔的规律遗传 微卫星DNA/简短串联重复(STR、STRP或SSLP)
重复单元2-8bp,通常重复10-60次,分布在整个基因组。CTAGCTTATATATATATATATATATATATAAGCTTGCnullSTR具有高度多态性,同一遗传位点数目变化很大,在群体中也可形成多达几十种的等位基因,这是其他遗传标记所不能比拟的;
利用PCR的DNA体外扩增技术,实现机器自动化。
1996年初,所建立的遗传图已含有6000多个以STR为主体的遗传标记,平均分辨率即两个遗传标记间的平均距离为0.7分摩,这个距离大致对应于0.7Mb的物理距离。null 第三代DNA遗传标记:单核苷酸的多态性
(single nucleotide polymorphism,SNP)SNP:是由于单个核苷酸改变而导致的核酸序列多态。null可能是最好的遗传标记,是分散于基因组中的单个碱基的差异,即单核苷酸的多态性(SNP),包括单个碱基的缺失、插入和替换。
SNP中大多数为转换,即由一种嘧啶碱基替换另一种嘧啶碱基,或由一种嘌呤碱基替换另一种嘌呤碱基,颠换与转换之比为1:2。
SNP有可能在密度上达到人类基因组“多态”位点数目的极限。估计人类基因组中可能有300万个SNP位点!
SNP与RFLP和STRP标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。null人类99.9%的基因密码是相同的,而差异不到0.1%,不同人群仅有140万个核苷酸差异。
这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础。
在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。 显微镜下人的染色体组nullSNP与RFLP和STR标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。nullnull“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近。
如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近。
如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。(二)物理图(physical mapping)(二)物理图(physical mapping)人类基因组的物理图是指以已知核苷酸序列的DNA片段(序列标签位点, STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。
STS是基因组中任何单拷贝的长度在100~500bp之间的DNA序列,与核酸内切酶识别序列相关联。
物理图主要内容是建立相互重叠连接的“相连DNA片段群”。
物理图与遗传图相互参照就可以把遗传学的信息转化为物理学信息。null 构建物理图谱的原因
1)遗传图谱有限的分辨率
对于人类或其他高等生物不可能得到大量的子代群体,减数分裂的后代有限,限制了连锁分析。
2)遗传图谱的精确性不高
染色体上存在重组热点,影响邻近区段的遗传图谱的准确性。null 构建物理图谱的三条途径1)限制性酶切图谱 识别位点较多的内切酶:如NotⅠ,其8个核苷酸出现的频率为1/48=1/65536bp,而识别位点为6个核苷酸的出现频率为1/46=1/4094bp。
其酶切位点在基因组中出现频率低的内切酶:
人类基因组中,5’-CG-3’出现的频率很低:
Sma Ⅰ酶切DNA,每78kb只有1个切点。
BssH Ⅱ酶切DNA,每390kb只有1个切点。
Not Ⅰ酶切DNA,每10Mb 只有一个切点。null2)荧光原位杂交(Fluorescent in situ hybridization),FISH):通过荧光标记的探针与DNA分子杂交,杂交信号即探针DNA在染色体上的图谱位点。
步骤:取处于有丝分裂中期的细胞制片,将染色体变性成单链,在将标记的DNA探针变性后杂交到染色体上,保温处理后,显微镜下直接观察。荧光原位杂交
(fluorescent in situ hybridization,FISH)荧光原位杂交
(fluorescent in situ hybridization,FISH)null3)序列标签位点
利用某一已知序列为标签的位点(sequence tagged sites,STS)作探针,与DNA杂交,绘制物理图谱。
STS的要求:
已知序列,便于PCR检测;
基因组中仅一个位点,无重复。nullDNA序列标定部位(seguones tagged site, STS)
重叠克隆群(conting)
YAC (yeast artificial chromosome)
BAC (bacterial artificial chromosome)nullnullnull人类部分染色体物理图谱null 物理作图是应用分子生物学技术来直接分析DNA分子,从而构建能显示包括基因在内的序列特征的位置图。
限制酶作图是对小的基因组进行物理作图的有效方法。
FISH技术是通过荧光标记显示DNA标记在一条染色体中的位置。
用放射性杂交体组及克隆文库技术进行STS作图,是最有效的物理作图方法。null如某一区域的大小为多少cM可以基本折算为某一区域大小为多少Kb。物理图的绘制需要筛选大量的物理标记以及进行大量复杂和繁琐的分析。
1995年,第一张以称为序列标签位点STS为物理标记的物理图谱问世,它包括了94%的基因组和1500多个标记位点,平均间距为200Kb(这就是所谓的分辨率)。这样,物理图就把人类庞大基因组分成具有界标的1500个小区域。
人类基因组物理图的问世是基因组计划中的一个重要里程碑,被遗传学家誉为20世纪的"生命(生物学)周期表"。null利用一张遗传图,研究人员可将一种特定的遗传病的遗传模式同标记顺序的遗传模式进行比较,迅速确定引起该遗传病的基因的位置。
然后,计算机把数据固定在物理图框架内。遗传图与物理图结合在一起,就能迅速确定与疾病有联系的基因。
物理图的问世标志着离人类基因组全序列测定仅有一步之遥了。STS作图STS作图 序列标记位点(sequence tagged site, STS)作图是通过PCR或分子杂交将小段DNA顺序定位在基因组的DNA区段中。是目前用于构建最为详尽的大基因组物理图的主流技术。
原理:
– STS是一段短的DNA序列,100-500 bp,每个基因组只有一个拷贝。当两个片段含有同一STS时,可确认这两个片段重叠。
– 两个不同的STS出现在同一片段的机会取决于它们在基因组中的位置,彼此接近,同时出现在同一片段的机会就大,反之则小。
– 两个标记间的图距根据分离频率来计算。nullChromosomeMaleFemale 1.12 1.76
0.78 1.40
0.86 1.30
0.67 1.40物理图距离( Mb )与
遗传学距离 ( cM ) 的对应关系cM / Mbnull 制备物理图谱的大容量载体
在制备基因组物理图谱中,需大容量载体。
主要的类型是黏粒:
cosmid 粘粒
-- YACs(yeast artificial chromosomes),
-- BACs(bacterial artificial chromosomes)和 PACs (phage P1-based artificial chromosomes)null 克隆载体:
Cosmid(粘粒)
YAC(酵母人工染色体)
BAC(细菌人工染色体)人类基因组物理图人类基因组物理图 1987年,RFLP图谱,403个标记,10Mb
1994年,5800个标记,0.7Mb
1996年,17000多个标记,100kb
完全适应全基因组测序的要求遗传图与物理图的整合遗传图与物理图的整合 有些标记既是遗传标记,又是物理标记
RFLP标记 SSR标记 某些基因序列
借助这些标记可以将遗传图和物理图整合起来。null人类的基因转录图(cDNA图),或者基因的cDNA片段图,即表达序列标签图(EST,expressed sequence tag)是人类基因组图的雏型。
在成年个体的每一特定组织中,一般只有10%~20%的结构基因(约1~2万个不同类型的mRNA)表达。
整个人类基因组中,有1%-5%的序列编码了蛋白质,最多可能有(5~7)万个蛋白质编码基因。得到了一段cDNA或一个EST,就能被用于筛选全长的转录本,并将该基因准确地定位于基因组上。
cDNA序列具有转录本的特异性,代表了不同基因的信息。可以将DNA序列和cDNA序列进行比对,找出对应于cDNA的基因。(三)转录图(Transcription Profiling)null收集各种细胞或组织的基因表达谱进行两两或多重比较,能较全面了解哪些基因是特异性表达的。在某一细胞或组织中特异性表达的基因可能与该组织或细胞类型的生理功能有关。
获得各类组织或细胞的基因表达谱,从而给出人体200余种基本组织或不同细胞组成的人体基因图(bodymap)。
转录图(基因表达谱)研究所提供的信息,使人们能系统地全面地从mRNA水平了解特定细胞、组织或器官的基因表达模式并解释其生理属性,深入认识细胞生长、发育、分化、衰老和疾病发生的机制。null有了一张总的转录图,我们就可以了解某基因在不同的时间、不同组织的表达情况;
可以了解不同组织中不同基因的表达;还可以了解正常条件下与异常状况下基因表达的差异。null人类基因组的核苷酸序列图是分子水平上最高层次、最详尽的物理图。测定总长约1米、由30亿个核苷酸组成的全序列是人类基因组计划的最终目标。
既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。(四)全序列图(Sequence Map)null人类所拥有的基因位点都是相同的,不同种族、不同个体的基因差异(人类基因组的多样性)以及“正常”与“疾病”基因的差异,只是同一位点上的等位基因的差异。
人类基因组计划所提供的人类核酸序列图,蕴藏了决定我们生、老、病、死的所有遗传信息,将成为人类认识自我、改造自我-使人类健康长寿的知识源泉,为21世纪现代生物学和医学奠定了基础。nullnull基因组DNA序列测定人类基因组的全部核苷酸(3X109)排列顺序null
Celera Genomics
人类基因组的
测序策略
人类基因组测序策略null采集5个自愿者的DNA样品构建3种不同插入子大小的基因组文库2Kb, 10Kb和50Kb完成约2700万次插入子末端测序,总长14800MbGeneBank下载104018个BAC末端顺序PFP发表的公开数据主要为BAC克隆的顺序,共4443.3Mb随机测序与序列组装方法和
指导测序与序列组装方法
相结合进行序列组装nullB.国际人类基因组测序策略
构建BAC克隆
↓
限制性酶处理获得指纹
↓
根据指纹重叠方法组建BAC克隆重叠群
↓
根据STS标记,将BAC克隆重叠群标定在物理图上
↓
每个BAC克隆内部采用鸟枪法测序,组装
↓
将BAC插入顺序与BAC克隆指纹极重叠群对比,将已阅读的顺序锚定到物理图上null两种基因组测序策略两种基因组测序策略null DNA测序基本步骤 限制性内切酶将大片段DNA切成小的片段
小片段插入(连接)到测序载体中
用测序仪对小片段DNA测序
超级计算机分析测序结果,进行拼接得到 一致序列nullDNA切下的片段插入(连接)到载体中叠连群测序后得出一致序列大量的重叠片段gtatgtacatttttaaaatctcattttaaaaggccagttaaaatgggtatgtacatttttaattttaaaatctcattttaatttaaaaggccagttaagttaaaatgg人类基因组研究的惊人发现人类基因组研究的惊人发现分析得知:全部人类基因组约有2.91Gbp,约有39000多个基因;平均的基因大小有27kbp;
基因数量少得惊人:
一些研究人员曾经预测人类约有14万个基因,但实际上不超过40,000,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。null3.人类单核苷酸多态性的比例约为1/1250bp,不同人群仅有140万个核苷酸差异,人与人之间99.99%的基因密码是相同的。并且发现,来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。 null4.人类基因组中存在“热点”和大片“荒漠”:
在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” .
在所有的DNA中,只有1%-1.5%DNA能编码蛋白,在人类基因组中98%以上序列都是所谓的“无用DNA”,分布着300多万个长片断重复序列。null5.男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。所以,可能男性在人类的遗传中起着更重要的作用。null大肠杆菌 (Escherichia coli)
酿酒酵母 (Saccharomyces cerevisiae)
拟南芥(Arabidopsis thaliana)
秀丽小杆线虫 (Caenorhabditis elegans)
果蝇 (Drosophila melanogaster)
小鼠 (Mus musculus)模 式 生 物null 创建计算机分析管理系统
主要的人类基因组数据库 欧洲生物信息学研究所 EMBL: http://www.embl.org/ 美国国家生物技术信息中心 NCBI: http://www.ncbi.nih.gov/日本国立遗传学研究所 DDBJ: http://www.ddbj.nig.ac.jp/nullnullnullnull已公开基因组数据物种的全基因数据库“人类与黑猩猩是兄弟和大猩
猩只算表亲”“人类与黑猩猩是兄弟和大猩
猩只算表亲” 2006年,佐治亚理工学院、国立人类基因组研究所等机构的科学家,对人类、黑猩猩、大猩猩、猩猩等几种灵长目动物进行了大规模的基因组序列比较,并对比了他们的“进化钟”运转速度,即基因组中单核苷酸变异的速度。
在人以外的灵长目动物中,黑猩猩与人类的差异最小。人类和黑猩猩基因组的相似度达到98.8%,其基因组的大部分可排序区域几乎没有区别。null 完成一个生物体全部基因组测序后即进入后基因组测序阶段——详尽分析序列,描述基因组所有基因的功能,包括研究基因的表达及其调控模式,这就是功能基因组学。 功能基因组学 (functional genomics)null(一)鉴定DNA序列中的基因
(二)同源搜索
基因功能
(三)实验性设计基因功能
(四)描述基因表达模式 主要具体内容包括以下方面 nullGenomic biology The human genome, whole genomes, and related resources Tools Data mining Research at NCBI People, projects, and seminars Software engineering Tools, R&D, and databases Education Teaching resources and on-line tutorials FTP site Download data and software Contact information How to reach us null功能基因组学研究策略及主要内容比较基因组学
(comparative genomics)比较基因组学
(comparative genomics)比较基因组学(comparative genomics)涉及比较不同物种的整个基因组,以便深入理解每个基因组的功能和进化关系。 null进化树(系统发生树)null “微型人”
生理系统与人非常相似
90%的基因与人类同源小鼠 (Mus musculus)null