nullnull复杂性疾病的遗传易感性研究简介姜 正 文
上海天昊人类遗传学研究中心
null●复杂性疾病性质及遗传基础
●复杂性疾病基因定位策略
●样本量的选择
●SNP位点的选择
●数据分析
●候选SNP位点的功能性研究纲 要null复杂性疾病性质及遗传基础1、相对于单基因疾病,复杂性疾病则是由多个基因及环境因素(包括致病微生物)相互作用所致且在家系中不符合孟德尔规律又称为多基因病, 多基因遗传病或多因子病
特点:
1)基因与环境相互作用的结果;
2)强遗传异质性:多个基因参与或同一基因多个等位基因参与;
3) 发病频率高-common disease;
4) 逃脱进化上的选择
2、遗传机制理论
Common Disease Common Variant (CDCV)
Common Disease Rare Variant (CDRV)null复杂性疾病基因定位策略1、连锁分析:检验遗传标记与表型在家系中共传递概率
样本来源:家系样本
分析方法:参数分析-LOD
非参分析-NPL
适合主效基因明显病例:APOE (E4)VS AD; HLA-C vs psoriasis
HLA-DRB1 vs AS
2、相关分析
基于家系:TDT, QTDT, FBAT
基于群体:病例-对照研究
null不受群体结构的影响;减少遗传异质性影响;检测分型错误null病例-对照相关性研究1、全基因组相关分析(GWA):选取覆盖整个基因组的SNP位点进行分型以及相关分析
(Affymetrix vs Illumina芯片,研究成本巨大)
2、候选基因相关分析:根据致病机理或前人研究选取候选基因区SNP位点进行分析对微效基因据更强的检出能力;样本采集相对比较容易null样本量的选择 vs Power Analysisnullhttp://www.cs.uiowa.edu/~rlenth/Power/Java applets for power and sample sizenullsingle nucleotide polymorphisms
发音为snips
单核苷酸多态性
个体之间单核苷酸的差异
在群体中的频率>1%
人类基因组中总共约1000万个
构成了人类遗传多样性的90%
什么是SNPnull与SNP相关参数cSNP: 编码区SNP,snynonymous/nonsyn.
rSNP: regulatory SNP
MAF: minor allele frequency
Heterozygosity: 杂合度
Heterozygosity=2MAF(1-MAF)
Singleton SNP:在SNP discovery中只发现一个个体是含另一多态
nullSNP的来源:突变位点因随机飘变或奠基者效应而被放大所致AAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAAAAAAAAAAAAAAAAAAAAAAGAAAAAGGGGGGGGGGGGGGGAAAAAAGGGGGGGGnull
A a a B a b a B C a b C a b c A B C D a B C D a b C D a b c D a b c dL=1
L=2 L=3 Ns=4, Nh=5Ns: number of sites
Nh: number of haplotypesNs=n
Nh=n+1If no recombination and recurrent mutation occurs, there are at most n+1 haplotypes for n SNP sites.A BA B CnullnullnullnullLD MeasurementsLD MeasurementsD=PA1B1PA2B2-PA2B1PA1B2
D’= D/Dmax
if D>0, Dmax is min{PA1PB2, PA2PB1}
if D<0, Dmax is min {PA1PB1, PA2PB2}
r2=D2/PA1PA2PB1PB2
D: 度量了LD的绝对大小
D’是去除了频率的影响,度量了LD的相对大小
r2 :LD和统计学的桥梁, 两个位点间相关程度
null连锁不平衡结构图及连锁不平衡域nulltagSNP: 标签SNP位点nullSNP位点的选择tagSNP:
1)www.hapmap.org
2)Resequencings数据+Haploview
3) 通常要求r2>0.8
4) MAF>0.05/0.1/0.2
功能候选:
广泛研究的SNP位点,nonsyn. SNP, 软件预测rSNP位点,nullSNP位点的选择穷尽法:利用现有数据库(HapMap)中的基因分型数据,选取代表该基因有分型数据的所有SNP位点信息的tagSNP位点(对于有分型数据而且是功能候选位点或被广泛研究过的优先选取),对于在该数据库中没有数据的功能候选位点或被广泛研究过的位点也应该被选上
候选法:有时因为经费考虑,可能不能对所有基因内的SNP位点进行研究,只能选取被广泛研究过的以及候选功能位点进行研究。广泛研究的位点可以从文献中获得, 候选功能位点为2-10kb启动区的tagSNP以及非同义SNP位点。 null数据分析1、LD 结构分析:HaploView
2、单倍型分析: Phase
3、单位点相关分析: SPSS/SNPstat
4、单倍型相关分析: SPSS
5、基因与基因/基因与环境相互作作用
Logistic Regression/SPSS
6、多重检验校正nullHaploview Analsyis InullHaploview Analsyis IInullPhase.out单倍型推断nullSNPstat Result InullSNPstat Result II单倍型分析单倍型分析单倍型分析步骤
划分单倍域,选出某个单倍域的位点
使用Phase软件推定各个样本的单倍型
整理出单倍型分布表,示例如下
单倍型分析单倍型分析总体检验
使用5X2列联表来检验这5个单倍型总体上和疾病的相关性
分别检验
使用2X2列联表分别检验每个单倍型的携带者和非携带者的患病风险是否一致,得到每个单倍型的显著性Logistic RegressionLogistic RegressionLogistic Regression
用于校正性别年龄等环境因素的影响
用于检验基因基因、基因环境的相互作用
Logistic 模型
Logistic RegressionLogistic Regression使用要点
不要同时扔进太多的因素
检验互作的时候加一个新变量,其值为要研究的两个变量的乘积,检验其系数是否为零
对于基因型分类变量,在SPSS里面要选择Categorical Genomic ControlGenomic ControlGenomic Control
样本人群中可能存在亚结构、亚群体
如果各个亚群体的发病率不同,会导致病例和对照组亚人群构成比例不一致
导致了关联分析的假阳性结果
本方法用于校正可能的人群分化带来的假阳性Genomic ControlGenomic ControlGenomic Control具体操作
在基因组不同区域挑选几十个无功能区的中高频率的SNPs
这些点在样本中作等位基因卡方检验
用这些点卡方值的中位数除以0.456,得到λ
如果λ>1,则把每个实验的点的卡方值除以λ
重新计算每个点的显著性水平Multiple Testing CorrectionMultiple Testing CorrectionMultiple Testing Correction
多重检验校正
同时作了多个SNPs位点时适用
同时作了多个位点以后难以判断阳性位点是随机原因产生的还是真正的
常用方法
Bonferroni
False Discovery Rate
Bonferroni CorrectionBonferroni Correction最保守
Bonferroni示例,假设总共做了10个位点
p-value order q-value
0.0005 1 0.005*10=0.05
0.007 2 0.007*10=0.07
0.01 3 0.01*10=0.1
0.03 4 0.03*10=0.3
……
Westfall and Young PermutationWestfall and Young Permutation1) P-values are calculated for each SNP based on the original data set and
ranked.
2) The permutation method creates a pseudo-data set by dividing the data into CASE and CONTROL groups.
3) P-values for all SNPs are computed on the pseudo-data set.
4) The successive minima of the new p-values are retained and compared to the original ones.
5) This process is repeated a large number of times, and the proportion of
resampled data sets where the minimum pseudo-p-value is less than the
original p-value is the adjusted p-value.Westfall, P.H. and Young, S. 1993. Resampling-Based Multiple Testing, Wiley, New York.False Discovery RateFalse Discovery RateFalse Discovery Rate
控制阳性位点中假阳性的比率
FDR方法示例,假设总共做了10个位点
p-value order q-value
0.0005 1 0.005*10/1=0.05
0.007 2 0.007*10/2=0.035
0.01 3 0.01*10/3=0.033
0.03 4 0.03*10/4=0.075
……
Benjamini, Yoav; Hochberg, Yosef (1995). null候选SNP位点的功能性研究1、Nonsyn. SNP
In Vitro:表达蛋白;蛋白性质检测;转化细胞
In Vivo:从不同基因型个体中分离蛋白做活性差异检测或细胞
特性检测
2、 非编码区位点
a) EMSA( Electrophoretic Mobility Shift Assay )
b) Transfection Assay
c) AEI (Allelic Expression Imbalance)nullEMSAnullTransfection Assaynullcis-acting elementsTrans-acting FactorsEnvironmental factorsPhysiological factorsGene RegulationEpigenetic FactorsAllelic Expression ImbalancenullPaternalMaternalStatus 1Status 2Status 3P:M1:11:1Differential Expression of two homologous gene alleles (1)nullPaternalMaternalStatus 1Status 2Status 3P:MDifferential Expression of two homologous gene alleles (2)••••••••••••••••••nullHETERHETERHOMOHOMOCorrelation between SNP loci and Allelic expression ratiosnull R1 M1 R1 M2 R2 M1 R2 M2 R1 M2 R2 M1 R1 M1 R2 M2AER(M1:M2)=1AER(M1:M2)=1AER(M1:M2)>1AER(M1:M2)<1AER(M1:M2)=1AER(M1:M2)=1AER(M1:M2)=1AER(M1:M2)=1Exp(R1:R2)>1 Exp(R1:R2)=1n1n2n3n4R, regulatory SNP; M, marker SNP; AER, allelic expression ratio; Exp(R1:R2) denote the inducibility ratio of R1 to R2. Allelic Expression Imbalance (AEI) provides the in vivo evidence for presence of Cis-acting Genetic VariantsnullDetection of Allelic Expression Ratio using Single Nucleotide Extension with different-fluorescence labeled ddNTPnullAllelic Expression Imbalance is Common for CYP1A1, CYP1A2 and CYP2C19Low LD between M01and M02, M03 and M04, M05 and M06, M07 and M08, M09 and M10null谢谢 !