基因型填充(genotype imputation)是全基因組關聯(lián)分析(genome-wide association study, GWAS)中的重要工具,通過這項技術可以精確地預測沒有被芯片設計所覆蓋的多態(tài)性位點的基因型,使得更多的遺傳位點應用到關聯(lián)分析中,從而提高發(fā)現(xiàn)新的致病基因的可能性。
基因型填充需要由高密度SNP構成的單體型(haplotypes)作參考模板。
隨著千人基因組計劃的完成,超過7千萬的多態(tài)性位點被發(fā)現(xiàn),由此構建了一張豐富的人類遺傳單體型圖譜,為基因型填充提供了有力依據(jù)。借助高性能計算的快速發(fā)展,越來越多的研究人員選擇利用基因型填充對芯片產(chǎn)生的基因型數(shù)據(jù)進行imputation,進而增加GWAS和fine-mapping的效能。
本文接下來向大家介紹基因型填充的原理和其在關聯(lián)分析中的應用。
1
基因型填充的基本原理
基因型填充的最初構想基于家系樣本的遺傳特性。具有已知親緣關系的個體之間具有共享的單體型(haplotype),這些由有限個遺傳標記所構成的單體型隨祖先一起遺傳,反映連鎖不平衡。
因此,在具有相同單體型的家系中,遺傳標記少的樣本可以參照遺傳標記多的樣本進行基因型填充。
對于沒有親緣關系的樣本,以上理論也基本適用,主要的差別在于無血緣關系的樣本之間共享的單體型比家系樣本之間的要短很多。
對無親緣關系樣本進行基因型填充需要一個高密度遺傳標記構成的單體型圖譜作為參照。通過對比待填充樣本和參考模板,找到兩者之間共有的單體型,然后就可以將匹配上的參考模板中的位點復制到目標數(shù)據(jù)集中。
然而,不是所有的單體型配對都準確一致。當無法準確斷定哪一個單體型應該被填充,通常的做法是給出不同單體型出現(xiàn)的概率,并估算不確定性。
圖1 簡要地描繪了非家系樣本的基因型填充過程。
圖1:無明顯親緣關系樣本的基因體填充簡化圖。A輸入待研究目標樣本和參考模板,B在目標樣本和參考模板之間構建單體型(pre-phasing),C根據(jù)目標樣本和參考模板之間共享的單體型進行基因型填充
2
基因型填充的常用軟件
目前,隨著計算生物學和生物信息學的發(fā)展,有很多算法和軟件都有能力完成基因型填充的任務。
這些方法基本可以分為兩大類:
(i)計算密集型,比如IMPUTE、 IMPUTE2、MACH、 和fastPHASE/BIMBAM。這種類型的方法在填充的過程中充分考慮到全部可以觀察到的基因型信息,使得對缺失值的估算更加精確;
(ii)計算高效型,比如PLINK、TUNA、WHAP和BEAGLE。此種算法僅僅關注與特定位點相鄰的一小部分標記的基因型,因此在計算上更加快捷。表1列出了4種常見的基因型填充軟件的特性。
3
基因型填充的應用
雖然近年來隨著新一代測序技術的快速發(fā)展,成本快速下降,但對大量樣本進行全基因組測序以及后期對序列數(shù)據(jù)進行處理仍然費時費力。因此,先利用基因芯片檢測并隨后借助基因型填充的策略仍然是一個不錯的選擇。
這種方法在以下4個方面具有優(yōu)勢:
(1)提高檢驗效能。
相對于僅僅使用芯片上現(xiàn)有的數(shù)據(jù),利用基因型填充進行全基因組關聯(lián)分析可以提高10%的檢驗效能。不難想象,關聯(lián)分析所包含的變異位點越多,檢測到顯著SNP的可能性就越大,所能解釋的遺傳力(Heritability)也越大;
(2)使Fine-mapping分析成為可能。
對感興趣基因組區(qū)域進行基因型填充,可以得到該區(qū)段內高分辨率的遺傳變異位點信息,大大提高了發(fā)現(xiàn)真正的易感SNP的可能性;
(3)為GWAS-Meta分析提供基礎。
由于不同的GWAS研究往往會根據(jù)自己的樣本特征設計專屬的芯片,來自不同平臺的芯片含有特定的SNP,導致同一表型的多個不同研究之間無法具有統(tǒng)一的SNP集合,使Meta分析變得困難。
對不同的基因芯片數(shù)據(jù)采用相同的參考模板進行基因型填充,就可以使每一個研究都獲得一個相對統(tǒng)一的SNP集合;
(4)產(chǎn)生除了單核苷酸之外的其它變異。
如果用基于測序方法產(chǎn)生的1000 Genome 作參考模板,就很容易的獲得例如拷貝數(shù)變異、插入或缺失等類型的突變。在全基因組關聯(lián)分析中,這種類型的變異也越來越多得受到關注。
以上4個優(yōu)勢,也正是基因型填充被廣泛使用的4個方面。
4
參考文獻
Marchini, J. and B. Howie, Genotype imputation for genome-wide association studies. Nat Rev Genet, 2010. 11(7): p. 499-511.
Genomes Project, C., et al., An integrated map of genetic variation from 1,092 human genomes. Nature, 2012.
Van Leeuwen, E.M., et al., Population-specific genotype imputations using minimac or IMPUTE2. Nat Protoc, 2015. 10(9): p. 1285-96.