隨著多組學定量技術的蓬勃發(fā)展,當下基因組學的核心任務已經(jīng)演變?yōu)樵谌蚪M水平剖析機體中復雜的遺傳因素與機體表型的關聯(lián)及其具體作用機制,例如通過對轉錄組測序、啟動子甲基化測序、表觀遺傳修飾測序、轉錄因子/RNA結合蛋白結合位點測序等大規(guī)模數(shù)據(jù)進行挖掘和聯(lián)合分析,從而解釋和預測相關基因的功能、識別對應疾病狀態(tài)的分子標志物、以及對基因組不同功能分區(qū)進行注釋等【1】。由于基因組學研究在本質上對序列局部依賴性(local dependency)和長程相關性(long-range association)等進行特征提取的要求及其大規(guī)模和深層次的數(shù)據(jù)特性很好地契合了神經(jīng)網(wǎng)絡算法的工作邏輯,近年來飛速發(fā)展的深度學習技術便無可避免地成為了基因組學研究的一項利器【2-4】。在眾多憑借神經(jīng)網(wǎng)絡的成功應用而大放異彩的基因組學研究領域中,對非編碼區(qū)突變的功能性研究尤為引人注目。
利用全基因組測序技術(whole genome sequencing, WGS)對特定疾病進行全基因組關聯(lián)分析(genome-wide association study, GWAS)是研究單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)與相關疾病表型的關聯(lián)的經(jīng)典手段。不過,由GWAS識別出的絕大多數(shù)突變均位于不參與翻譯過程的非編碼區(qū)域中,無法直接改變蛋白質序列,因而對解釋這些突變的下游功能提出了挑戰(zhàn)【5】。為了回應這一挑戰(zhàn),美國普林斯頓大學的Olga Troyanskaya課題組于2015年在Nature Methods上發(fā)表了題為?Predicting effects of noncoding variants with deep learning–based sequence model的研究,首次提出利用卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)預測非編碼區(qū)突變通過破壞轉錄因子結合、組蛋白結合或DNA可接近性而與疾病發(fā)展產生功能性關聯(lián)【6】。
作為對這一重要思路和方法的擴展與應用,2019年5月28日,Troyanskaya課題組聯(lián)合美國洛克菲勒大學著名的基因轉錄后調控研究專家Robert Darnell在Nature Genetics上發(fā)表了題為?Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk的研究,利用深度學習技術揭示了與自閉癥具有功能性關聯(lián)的大量非編碼區(qū)突變。
自閉癥譜系障礙(ASD,Autism Spectrum Disorder ),是根據(jù)典型自閉癥的核心癥狀進行擴展定義的廣泛意義上的自閉癥,是一種較為嚴重的發(fā)育障礙性疾病。過去的十年間,人們對自閉癥的遺傳基礎的認識有了相當大的進步,但絕大多數(shù)對自閉癥相關突變的功能性研究僅集中在能夠改變蛋白質序列的基因編碼區(qū)中,有研究表明這些突變只能夠解釋約30%的自閉癥譜系障礙病例的遺傳基礎【7】。因此,對大量的功能不明的非編碼區(qū)突變進行注釋和分析對深入理解自閉癥的發(fā)生機制就顯得尤為重要。在該項研究中,研究人員利用深度學習技術,著重從非編碼區(qū)突變對基因調控元件(gene regulatory element)的破壞從而抑制轉錄因子或RNA結合蛋白對相應DNA/RNA靶點結合能力的角度解釋了這些突變與自閉癥的功能性關聯(lián)。
首先,研究者利用現(xiàn)有的染色質免疫沉淀測序(ChIP-seq)和交聯(lián)免疫沉淀測序(CLIP-seq)數(shù)據(jù)分別對2002個轉錄調控因子和232個轉錄后調控因子對應的卷積神經(jīng)網(wǎng)絡分類器進行了訓練。隨后,研究者利用這些分類器對存在于自閉癥患者中的突變對應的基因序列進行分析,對其擾動轉錄調控或轉錄后調控因子結合的能力進行打分(下圖a)。接著,為了將突變對調控因子結合能力的影響與突變所導致的疾病表型進行關聯(lián),研究者利用人類基因突變數(shù)據(jù)庫(The Human Gene Mutation Database, HGMD)所記錄的疾病相關突變和千人基因組計劃(1000 Genomes Project)所記錄的健康人群的罕見突變分別作為正、負樣本,以突變對調控因子的擾動水平為輸入特征,構建了一個L2正則化(L2 regularization)邏輯回歸分類器,從而獲得每個在自閉癥患者群體中觀察到的突變的疾病相關性分數(shù)(disease impact score)。通過對自閉癥患者與對應同胞進行比較,研究人員發(fā)現(xiàn)前者所具有的突變對應的疾病相關性分數(shù)顯著高于后者(下圖b),這表明通過DNA突變對基因調控因子的擾動能力來預測其疾病相關性是有效的。
為了探究由上述方法識別出的與自閉癥具有顯著統(tǒng)計關聯(lián)的非編碼區(qū)突變是否與之亦有功能上的潛在關聯(lián),研究者首先利用GTEx數(shù)據(jù)庫的人體幾十種組織的基因表達譜篩選出每個組織特異高表達的基因群,然后比較每一組織特異基因群所對應的突變的疾病相關分數(shù)在自閉癥患者和對應健康同胞之間的差異,結果發(fā)現(xiàn)差異最為顯著的前12種組織均為腦部組織(下圖),這一證據(jù)從組織特異性的角度展示了由卷積神經(jīng)網(wǎng)絡和邏輯回歸聯(lián)合分析識別出的重要非編碼區(qū)突變在功能上的確與自閉癥有顯著關聯(lián)。
有了上述重要突變與自閉癥具有潛在功能性關聯(lián)的證據(jù),研究人員接下來著重分析了這些突變所對應的基因在功能上的富集情況。經(jīng)由基于基因-基因功能和表達關聯(lián)性的網(wǎng)絡分析,研究者識別了自閉癥相關非編碼區(qū)突變對應的基因所富集的信號通路,其中包括多個與神經(jīng)發(fā)育和突觸連接等直接相關的基因模塊。這一分析結果從功能富集的角度說明了前述突變群與自閉癥的直接功能相關。
最后,研究人員還試圖利用實驗手段證實基于卷積神經(jīng)網(wǎng)絡的對非編碼區(qū)突變擾動轉錄因子結合能力的預測。為此,研究者對數(shù)十個重要非編碼區(qū)突變構建了相應的熒光素酶報告系統(tǒng)(luciferase reporter),通過與不攜帶突變的正常序列的對應結果進行比較,研究者發(fā)現(xiàn)絕大多數(shù)突變的確顯著改變了對應基因被特定轉錄因子結合的能力(下圖)。這一結果不僅驗證了神經(jīng)網(wǎng)絡的預測分析,同時也為相關突變的功能性機制研究提供了重要啟示。
總之,這項研究在發(fā)表于2015年的里程碑式的DeepSEA模型的基礎上系統(tǒng)性地研究了自閉癥患者攜帶的非編碼區(qū)基因突變通過直接影響轉錄調控或轉錄后調控因子與對應靶點的結合能力而參與疾病發(fā)生發(fā)展的能力。作者經(jīng)由這一分析模式識別出了大量潛在的自閉癥關鍵非編碼區(qū)突變,這與前人利用傳統(tǒng)基因組學方法始終無法識別出在自閉癥遺傳基礎中具有顯著關聯(lián)的非編碼區(qū)突變的情形形成了鮮明對比,再一次展示了深度學習技術基于其特征提取和非線性擬合特性在大規(guī)模、深層次基因組數(shù)據(jù)挖掘與分析中的強大本領。
原文鏈接:
https://doi.org/10.1038/s41588-019-0420-0
參考文獻
1. Eraslan, G., Avsec, ?., Gagneur, J. & Theis, F. J. Deep learning: new computational modelling techniques for genomics. Nat. Rev. Genet. (2019). doi:10.1038/s41576-019-0122-6
2. Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol. 33, 831–838 (2015).
3. Quang, D. & Xie, X. DanQ: A hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, 1–6 (2016).
4. Sharma, C., Gupta, R. K., Pathak, R. K. & Choudhary, K. K. DeepCpG: accurate prediction of single-cell DNA methylation states using deep learning. Fluoride 47, 15–22 (2014).
5. Leslie, R., O’Donnell, C. J. & Johnson, A. D. GRASP: Analysis of genotype-phenotype results from 1390 genome-wide association studies and corresponding open access database. Bioinformatics 30, (2014).
6. Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).
7. Iossifov, I. et al. The contribution of de novo coding mutations to autism spectrum disorder. Nature (2014). doi:10.1038/nature13908