国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Nature Reviews Genetics | 基因組時代的系統(tǒng)發(fā)育樹的構(gòu)建

Part1Phylogenetic tree building in the genomic age

最近看了兩篇楊子恒教授參與撰寫的關(guān)于分子進化的綜述,收獲很大,今天先介紹最近的一篇,2020年發(fā)表在Nature Reviews Genetics上。另一篇是在2012年同樣發(fā)表在Nature Reviews Genetics上。

Phylogenetic tree building in the genomic age
Molecular phylogenetics: principles and practice

Abstract

        了解物種間的系統(tǒng)發(fā)育關(guān)系是生物學中許多研究的基礎。準確的系統(tǒng)發(fā)育樹是我們理解進化過程中的重要轉(zhuǎn)變的基礎,如新的身體構(gòu)造或新陳代謝的出現(xiàn),也是推斷新基因的起源、檢測分子適應性、理解形態(tài)特征進化和重建最近分化的物種數(shù)量變化的關(guān)鍵。盡管數(shù)據(jù)越來越豐富,強大的分析方法也越來越多,但可靠的樹形構(gòu)建仍然存在許多挑戰(zhàn)。在此,本文章討論了系統(tǒng)發(fā)育分析的主要步驟,包括直系同源基因或蛋白質(zhì)的識別、多序列比對、替換模型的選擇和推斷方法。了解不同的錯誤來源和減少錯誤的策略對于組裝一棵準確的生命樹至關(guān)重要。

Introduction

        有關(guān)活的(和已滅絕的)物種如何相互關(guān)聯(lián)的知識是進化生物學的重要基礎。了解物種之間的關(guān)系本身就是一個重要的目標,是我們進行系統(tǒng)發(fā)育分類的基礎。生命樹也是研究新表型的起源和生物進化過程的基本框架。將可遺傳的特征狀態(tài)(表型或基因型)映射到樹上是不同的進化分析的基礎:例如,它使我們能夠?qū)μ卣鞯耐葱赃M行推斷,也能深入了解特征的喪失和趨同進化。根據(jù)定義,兩個分類群的同源性特征存在于它們共同的祖先中,使我們能夠推斷出這些祖先的特征。更廣泛地說,特征比對使我們能夠跟蹤整個樹上變化的特征狀態(tài),以重建進化的歷史路徑。樹(和分子數(shù)據(jù))也是進化過程擬合時間尺度的方法的基礎,樹也是用來確定進化過程趨勢的比較方法的基礎。

        盡管早在亞里士多德和林奈的分類嘗試中就已經(jīng)預示了重建所有生命之間的關(guān)系,但這一努力是在19世紀達爾文學說的推動下開始的。雖然樹最初在很大程度上是基于形態(tài)特征,但生物分子--核酸和蛋白質(zhì)--為重建樹提供了更強大和豐富的信息來源。自從DNA測序的發(fā)展和序列數(shù)據(jù)首次用于系統(tǒng)發(fā)育以來,我們對生命之樹的理解已經(jīng)發(fā)生了根本性的變化,并在達爾文對生命之樹的認識上取得了重大進展。在實現(xiàn)達爾文的夢想,即 在對'自然界中每個界的非常真實的譜系樹 '方面,已經(jīng)取得了重大進展。

        近二十年來,分子系統(tǒng)發(fā)育依賴于一個或幾個基因的數(shù)據(jù),通常使用PCR擴增和Sanger測序產(chǎn)生。新的測序技術(shù)的發(fā)展導致了包含基因數(shù)量的大型數(shù)據(jù)集,其數(shù)量增加了幾個數(shù)量級?;蚪M和轉(zhuǎn)錄組測序的便利性和低成本也意味著可以考慮的分類群數(shù)量在大量增加,這體現(xiàn)在最近對地球上所有物種的基因組進行測序的提議上。重建生命之樹的數(shù)據(jù)越來越多,但準確的樹形重建并不是那么簡單的。

        在本綜述中,涉及數(shù)百或數(shù)千個基因的系統(tǒng)發(fā)育流程(圖1)的主要步驟(所謂的系統(tǒng)發(fā)育方法)。對于每一個步驟,概述各種方法的選擇以及模型的復雜性和計算需求之間的一些相應的權(quán)衡。首先從一組基因組或轉(zhuǎn)錄組序列中確定直系同源基因(即其關(guān)系將可靠地反映物種關(guān)系的基因)。然后,討論如何將來自不同物種的直系同源基因?qū)R,以考慮到基因插入和刪除,以及修剪不可靠的對齊區(qū)域的策略。最后,詳細討論了樹的推斷方法和替換模型的選擇,并考慮了潛在的錯誤以及識別、避免或減少錯誤的方法。

Generating databases of orthologous genes

        在分子系統(tǒng)遺傳學發(fā)展的最初幾年,主要是利用一小部分通用直系同源基因進行研究,包括核糖體RNA的小亞基和大亞基(真核生物系統(tǒng)發(fā)育)以及線粒體基因組。rRNAs的廣泛使用源于使用通用引物進行PCR擴增的簡便性(與蛋白質(zhì)編碼基因不同,后者需要退火引物),這些通用基因之間的直系同源關(guān)系是明確的,并且存在一個關(guān)于這些序列的大型數(shù)據(jù)庫。

        近年來,高通量測序技術(shù)的發(fā)展意味著基因序列數(shù)據(jù)在序列數(shù)據(jù)庫中非常豐富,而且新數(shù)據(jù)的產(chǎn)生也很便宜和容易。我們現(xiàn)在面臨的數(shù)據(jù)收集的挑戰(zhàn)是確保數(shù)據(jù)不受污染,確定能反映物種關(guān)系的直系同源基因,最好是選擇那些不容易出現(xiàn)偏差的基因,這些偏差可能導致不準確的樹。

Fig. 1 | Phylogenomic pipeline.

Data compilation and preparation

        最初的基因序列數(shù)據(jù)可以來自基于基因組序列的基因預測(甚至是來自draft-quality的基因組)或來自由mRNA測序文庫產(chǎn)生的轉(zhuǎn)錄組(圖1a)。這個步驟的一個重要部分是識別和消除污染(無論是細菌、共生動物、寄生蟲或腸道內(nèi)容物,還是DNA提取后的交叉污染)(圖1b)。在開始進行系統(tǒng)發(fā)育流程時,假定每個感興趣的生物體都有基因序列。我們的最終目的是產(chǎn)生一個準確的物種關(guān)系樹(物種樹)。

Orthology predictions

        如果兩個基因是由一個祖先基因遺傳而來,那么它們就是同源的(圖2)。直系同源是一種特殊的同源關(guān)系,不同物種的基因由于物種的分化而相互分離。因此,直系同源基因再現(xiàn)了它們所衍生的物種之間的關(guān)系(圖2b)。其他形式的同源性包括旁系同源(paralogy)和異同源(xenology),在旁系同源中,兩個物種的基因來自于比兩個物種的共同祖先更早的基因復制(圖2c),在異同源中,一個物種的基因通過水平基因轉(zhuǎn)移(HGT)來自于一個遠緣物種。Paralogy和xenology不能反映物種之間的關(guān)系(圖2c)。因此,確定直系同源基因是重建物種系統(tǒng)發(fā)育關(guān)系的一個重要步驟(圖1c)。不同物種的基因復制和丟失是很常見的,甚至可能導致單拷貝基因之間旁系同源,給直系同源基因的鑒定帶來挑戰(zhàn)。

        從頭識別直系同源基因的方法主要分為兩類(表1):基于樹和基于圖論?;跇涞闹毕低赐茢嗍峭ㄟ^同源序列比對和重建樹來識別直系同源基因,以找到那些最可能是通過物種分化而不是通過基因復制或水平基因轉(zhuǎn)移的同源基因。這些方法在概念上最接近直系同源基因的定義,但它們的計算成本很高,因為它們需要對整個基因家族進行比對和系統(tǒng)發(fā)育推斷,而這些基因家族通常由數(shù)百個序列組成。由于系統(tǒng)發(fā)育信號被削弱(即多個突變積累導致同質(zhì)化),系統(tǒng)性錯誤的風險增加,更大的分歧對基因樹的推斷構(gòu)成更大的挑戰(zhàn)。如果不考慮導致基因樹不一致的其他過程,如不完全的譜系排序、水平基因轉(zhuǎn)移、雜交、基因滲入和非等位基因轉(zhuǎn)換,基因家族關(guān)系可能會進一步模糊。某些生物群體的特點是經(jīng)常發(fā)生其中的一些過程,例如細菌中的HGT和植物中的雜交、基因組復制和多倍體,這使得它們更容易出現(xiàn)直系同源預測錯誤。

        基于圖論的直系同源推斷方法依賴于這樣的假設:一個物種中的基因與其直系同源基因的相似度應高于第二個物種中的任何其他基因,反之亦然。這種直系同源的概念產(chǎn)生了最流行的基于圖論的方法,即 '雙向最佳命中 '方法和隨后的幾種替代方法。所有這些方法都是基于All-against-All的序列比對,大多使用BLAST來定義序列的相似性。基于圖論的方法也不能避免基于樹的方法所存在的問題,但它們的優(yōu)點是計算效率高,并且在大數(shù)據(jù)集上有很好的擴展性。

        鑒于序列和基因進化的復雜性,從頭預測的直系同源必然是近似的。令人鼓舞的是,基于這些程序的系統(tǒng)發(fā)育研究產(chǎn)生了一致和準確的系統(tǒng)發(fā)育。然而,直系同源預測的錯誤成為了系統(tǒng)發(fā)育問題中不一致的來源。替代從頭預測的方法是使用一組參考的直系同源基因,并在新測序的物種中確定其共同的直系同源基因。一些專門的數(shù)據(jù)庫提供了適合這一目的的直系同源序列,有些跨越了所有的生命領(lǐng)域,例如OrthoDB和OMA,有些則專注于特定的生物群體,如植物(Plaza)和哺乳動物(OrthoMam)。有幾個流程可用于自動化這一程序,采用這一策略有兩個好處。首先,它在計算上比從頭預測要便宜,其次,它可以減少與不完整基因采樣有關(guān)的錯誤。這在使用轉(zhuǎn)錄組數(shù)據(jù)時尤其重要,因為這些數(shù)據(jù)通常只包含基因的一個子集。數(shù)據(jù)的不完全性加上不同的基因損失,可能會增加在直系同源從頭預測中對旁系同源的錯誤識別。使用基于高質(zhì)量基因組數(shù)據(jù)的參考直系同源基因,通過確保感興趣的基因群的完整性,將這種風險降到最低。

        鑒于直系同源的鑒定和物種系統(tǒng)發(fā)育的推斷是相互關(guān)聯(lián)的,直系同源的假設也可以在一個物種基因組的相同直系同源部分進行檢驗。然而,大多數(shù)基因由多個結(jié)構(gòu)域組成,隨著時間的推移,它們的順序和數(shù)量可能發(fā)生變化。在這種情況下,有人提出,結(jié)構(gòu)域可能是更適合于直系同源的單位,因此也適合于系統(tǒng)發(fā)育推斷。

Table 1 Features of different orthology prediction and sequence alignment programs
Fig. 2 | Distinguishing orthologous and paralogous relationships between genes.

Alignment and trimming

Sequence alignment

        由于基因的插入和缺失(indels),基因和蛋白質(zhì)在物種之間的長度通常是不同的,而且,即使具有相同長度的基因中,基因中同一位置的殘基也不一定是同源的。識別跨基因的同源殘基需要將基因?qū)R,通過在序列中增加gap,以便在最終的多序列比對中,比對的每一列中的殘基應該來自同一個祖先的殘基(圖1d)。準確的比對是推斷進化關(guān)系的基礎,但對于經(jīng)常出現(xiàn)差異的基因來說,這是一個具有挑戰(zhàn)性的任務。當對準蛋白質(zhì)編碼的DNA序列時,核苷酸自然會演變成密碼子三聯(lián)體而不是單核苷酸。這一特性,以及氨基酸序列比相應的核苷酸變化得更少的事實,意味著在蛋白質(zhì)水平而不是在DNA水平上的初始排列通常是合適的。然后,可以根據(jù)其相應的氨基酸對密碼子三聯(lián)體進行比對。

        對齊方法可以分為三大類(表1)。最常用的方法是采用漸進法,包括Muscle、Clustal和MAFFT。這些方法首先對每對序列的相似程度做一個粗略的估計,并利用這些信息產(chǎn)生一個序列間關(guān)系的近似指導樹。然后,它們通過首先對最相似的一對序列進行比對,并根據(jù)指導樹逐步將關(guān)系較遠的序列添加到這個固定的比對中,從而建立起比對。

其次是基于一致性的方法,包括T-Coffee、ProbCons和MAFFT的某些版本。最初,這些方法評估所有的成對排列,并為每個序列對保留一個備選的高分記錄。隨后,識別所有序列對之間一致性最大化的整體排列?;谝恢滦缘姆椒ㄋ俣容^慢,但總體上比漸進式方法更準確。

        最后,計算成本最高的是統(tǒng)計或基于進化的方法,如Bali-Phy和StatAlign。這些方法假定了一個明確的插入和缺失的進化模型,并在貝葉斯框架內(nèi)共同推斷出排列和與序列相關(guān)的樹。統(tǒng)計學在方法學上是最合理的;然而,對于大的數(shù)據(jù)集,它可能會在計算上變得很苛刻。在這種情況下,使用性能良好的啟發(fā)式方法,如PRANK和MAFFT,是一種合適的折衷辦法。特別是對于較大的分歧,MAFFT的版本('MAFFT E-INS-i '和 'MAFFT L-INS-i')可能是實用的替代方法,它們分別考慮了長的內(nèi)部或末端gap的可能性。

Filtering aligned putative orthologues.

        任何直系同源識別程序都可能錯誤地將污染物、旁系同源或異同源識別為直系同源。這種錯誤可能會對系統(tǒng)發(fā)育推斷的準確性產(chǎn)生影響,例如,產(chǎn)生較長的分支、有偏見的模型參數(shù),甚至改變樹的拓撲結(jié)構(gòu)。為了盡量減少這種錯誤的來源,系統(tǒng)發(fā)育分析通常采用旨在識別離群序列的方法,通常采用基于BLAST的序列比較來測試最近的鄰居與系統(tǒng)發(fā)育預期的兼容性(圖1e)。例如,一個真正的昆蟲直系同源關(guān)系,預計與來自兩棲動物門的同源基因的相似性要高于與來自非兩棲動物門的同源基因的相似性,如果不符合這樣的假設,該序列就可以從數(shù)據(jù)集中刪除。這些方法可以有效地進行數(shù)據(jù)凈化,但它們通常需要對所涉及的分類群的系統(tǒng)發(fā)育關(guān)系有一定的了解。

        有幾個工具可以使這種基于BLAST的程序自動化,或者使用其他方法來檢測離群點(例如Phylo-MCOA是基于多重共慣性分析)。也有一些工具旨在識別和消除具有可能與系統(tǒng)誤差或低系統(tǒng)發(fā)育信息有關(guān)的特征的序列。最后,為了豐富可能由過于嚴格的直系同源預測產(chǎn)生的直系同源組(即導致許多假陰性),可以在更寬松的標準下使用基于參考的直系同源預測流程。

Alignment trimming

        對齊質(zhì)量隨著序列分歧的增加而自然下降 。由于比對錯誤可能會影響隨后的系統(tǒng)發(fā)育分析,因此過濾不明確的比對區(qū)域是很常見的(圖1f)。過濾的依據(jù)可以是關(guān)于排列質(zhì)量的特別標準,如膠結(jié)度和序列相似度,或者只保留對排列參數(shù)變化具有魯棒性的排列位置。關(guān)于修剪排列序列對下游系統(tǒng)發(fā)育分析質(zhì)量的影響的結(jié)果各不相同,因此修剪應謹慎使用。

Phylogenetic inference methods

Classification of phylogenetic inference methods

        基于一組經(jīng)過排列和修剪的直系同源基因,有兩種方法可以得出物種樹。首先,可以對每個基因排列進行獨立分析,以提供樹的估計值,然后將不同的樹進行整合,以產(chǎn)生物種樹的估計值。這就是所謂的超級樹(super-tree)的方法。第二種方法,可以將排列好的基因串聯(lián)成一個超級矩陣(supermatrix),通過分析產(chǎn)生一個全局的物種樹的估計值。盡管我們討論了在不同基因的譜系異質(zhì)性背景下調(diào)和多基因樹的方法(下文),但超級矩陣方法(圖1g)是最常用的,也是本綜述的主要內(nèi)容。

        系統(tǒng)發(fā)育的重建方法分為兩類:基于距離和基于序列特征。距離法包括計算每一對物種之間的遺傳距離(基于比較它們的排列序列),并使用所產(chǎn)生的距離矩陣迭代地構(gòu)建一個樹。最流行的距離方法是鄰接(NJ)法。因為NJ并不在所有可能的樹的巨大空間中尋找最佳的樹(根據(jù)一定的標準),所以它在計算上非常有效。有一些NJ方法的實現(xiàn)或變體,以及能夠產(chǎn)生幾千個樣本的系統(tǒng)發(fā)育的版本。然而,距離法對于遠緣物種往往表現(xiàn)不佳,因為大的距離很難估計,而且距離法在定義成對距離時,將系統(tǒng)發(fā)育中物種間路徑上的分支長度相加,從而加劇了這個問題。

Character- based phylogenetic inference methods

        基于序列特征的方法包括最大簡約法、最大似然法(ML)和貝葉斯推理法(BI)。最大簡約法計算出使用每種可能的樹形拓撲結(jié)構(gòu)解釋數(shù)據(jù)所需的核苷酸或氨基酸變化的最小數(shù)量。變化數(shù)量最少的樹形拓撲結(jié)構(gòu)被稱為最大簡約樹,是對物種系統(tǒng)發(fā)育的估計。對于大的數(shù)據(jù)集,詳盡地比較所有可能的樹是不可能的(對于10個物種有8.2×10^21個可能的有根樹),通常使用各種啟發(fā)式的樹搜索方法。最大簡約法由于其數(shù)學上的簡單性和計算效率而具有吸引力。然而,該方法涉及到對進化過程的明顯不現(xiàn)實的隱含假設。由于該方法缺乏明確的模型,因此很難納入序列進化過程中的眾所周知的特征,如核苷酸之間的不同進化速率(例如,轉(zhuǎn)換和顛換的不同速率)和位點之間的不同速率(例如,第三個密碼子位置的速率高于第一個和第二個位置)。眾所周知,簡約法比似然法更容易出現(xiàn)系統(tǒng)性錯誤,包括長枝吸引(LBA)。然而,該方法對難以設計適當?shù)奶卣鬟M化模型的數(shù)據(jù)類型是有用的,如基于基因組重排的稀有事件特征或獨特的形態(tài)特征。

Table 2 | Features of different tree reconstruction programs

        與簡約法不同的是,ML和BI方法都是基于一個明確的序列進化模型和似然函數(shù)。在一個以未知參數(shù)θ為參數(shù)的統(tǒng)計模型下,似然L(θ)是觀察到的數(shù)據(jù)的概率,看作是θ的函數(shù)。這里,θ可能包括替換模型的參數(shù)和樹上的分支長度。在系統(tǒng)發(fā)育學中,幾乎所有的模型都假定排列中的不同位點或列是獨立的;那么似然就是在不同位點觀察到數(shù)據(jù)的概率的乘積。似然包含了數(shù)據(jù)中關(guān)于模型下未知參數(shù)的所有信息。換句話說,一個使觀察到的數(shù)據(jù)看起來極有可能發(fā)生的參數(shù)值有望比一個使數(shù)據(jù)看起來幾乎不可能發(fā)生的參數(shù)值更接近于事實。參數(shù)的ML估計是使可能性最大化的參數(shù)值。樹估計的ML方法是由Felsenstein提出的,并在PAML、PhyML、RAxML-NG、IQ-Tree和FastTree等程序中得到了實現(xiàn)(表2)。對于每一棵樹的拓撲結(jié)構(gòu),替代參數(shù)和分支長度都要進行優(yōu)化,以達到最大的可能性,達到最高可能性的樹拓撲結(jié)構(gòu)就是ML樹。

        貝葉斯方法也依賴于一個明確的模型和似然函數(shù)。它與ML不同的是,它使用統(tǒng)計分布來量化參數(shù)的不確定性。在觀察數(shù)據(jù)之前,先驗分布被用來描述我們關(guān)于物種樹和模型參數(shù)的先驗信息。在收集和分析了數(shù)據(jù)之后,后驗分布也是如此。后驗是先驗乘以似然,經(jīng)過重新調(diào)整,使之成為一個適當?shù)姆植?。因此,后驗分布抓住了與數(shù)據(jù)中的參數(shù)有關(guān)的所有信息,是對先驗分布的更新。

        貝葉斯方法在20世紀90年代被引入分子系統(tǒng)遺傳學,并已在MrBayes、RevBayes、BEAST1、BEAST2和PhyloBayes(表2)等程序中實現(xiàn)。貝葉斯系統(tǒng)發(fā)育學的計算是通過馬爾科夫鏈蒙特卡洛(MCMC)算法實現(xiàn)的,這是一種計算機模擬算法,從樹的拓撲結(jié)構(gòu)和參數(shù)的后驗中產(chǎn)生樣本。在實踐中,算法訪問一個給定的樹拓撲結(jié)構(gòu)的頻率是對該樹的后驗概率的估計。最大后驗概率樹(或MAP樹)是我們對真實樹的最佳估計。95%的可信樹集包括總后驗概率≥95%的最有可能的樹;可信樹集的解釋是,鑒于數(shù)據(jù)和模型,該樹集包括概率為95%的真樹。

        基于似然的方法,包括ML和BI,一個嚴重的缺點是對計算的要求很高,因為它們可能需要成千上萬的CPU時間來運行;這對MCMC算法來說更是如此。對似然函數(shù)的表述需要明確說明有關(guān)序列進化的模型假設;這被一些人認為是一個缺點(因為所有的模型都是錯誤的)。然而。它意味著假設的模型可以被測試,它對分析的影響可以被評估,并且模型可以通過納入進化過程的重要特征而被改進。事實上,系統(tǒng)發(fā)育統(tǒng)計學的大多數(shù)現(xiàn)代發(fā)展都是在似然框架下實現(xiàn)的。

Table 2 | Features of different tree reconstruction programs

Confidence in clades using the bootstrap

        NJ樹、簡約樹或ML樹可以被認為是各自方法對真實系統(tǒng)發(fā)育的點估計。我們希望能像傳統(tǒng)參數(shù)的置信區(qū)間那樣,在點估計中附加一個置信度。為此,最常用的方法是自舉法,由Felsenstein引進到系統(tǒng)發(fā)育學。這就產(chǎn)生了一些自舉偽數(shù)據(jù)集(比如100個),其大小與通過重新抽樣形成的原始數(shù)據(jù)集相同,并替換了排列點。偽數(shù)據(jù)集的分析方式與原始數(shù)據(jù)集的分析方式相同。對一棵樹的自舉支持率是該樹在偽數(shù)據(jù)集中被推斷出來的頻率。自舉法經(jīng)常被用來給支系(而不是整棵樹)附加支持值:支系的支持度是在基于自舉法數(shù)據(jù)集的系統(tǒng)發(fā)育樹重建之后恢復該支系的頻率。與其他統(tǒng)計學應用中的自舉法不同,系統(tǒng)發(fā)育自舉法并沒有公認的或直接的解釋。

        在距離法、簡約法和ML法中,自舉法被用于評估樹的可信度。對于貝葉斯方法來說,樹和支系的后驗概率提供了自然的置信度,因此沒有必要使用自舉法。

        在對系統(tǒng)發(fā)育數(shù)據(jù)集的分析中,一個常見的現(xiàn)象是,無論關(guān)系是否正確,引導值和后驗支持值都非常高(接近100%)。這對于貝葉斯后驗概率來說尤其明顯。在系統(tǒng)發(fā)育規(guī)模的數(shù)據(jù)集中,隨機誤差變得不重要了,對不正確關(guān)系的這種強烈支持通常來自于系統(tǒng)誤差。

        我們現(xiàn)在回顧一下深層系統(tǒng)發(fā)育分析中最常見和最重要的錯誤來源。讀者可以參考Felsenstein和Yang的更詳細的討論。

Accommodating phylogenetic errors

        在系統(tǒng)發(fā)育分析中主要有兩種錯誤。隨機錯誤是由于數(shù)據(jù)集的規(guī)模有限(即排列中的位點數(shù)量有限),而系統(tǒng)錯誤是由于違反了方法中的模型假設。一般來說,當系統(tǒng)發(fā)育是在一個簡單的序列進化的同質(zhì)過程模型下推斷出來的時候,就會出現(xiàn)系統(tǒng)誤差(假設特征狀態(tài)之間、位點或基因之間、跨類群或時間的進化率是同質(zhì)的),而實際上,這個過程是異質(zhì)的。近年來,序列數(shù)據(jù)的爆炸性積累意味著系統(tǒng)發(fā)育分析中的隨機誤差已大大減少,但系統(tǒng)誤差實際上隨著更長的排列而增加。

Heterogeneity of rates across taxa and long- branch attraction

        LBA也許是影響系統(tǒng)發(fā)育重建的最已知的系統(tǒng)誤差。LBA錯誤的根源是不同種系的進化速率不相等;由此產(chǎn)生的每個種系預期變化量的差異在樹上表現(xiàn)為長枝(高度分化的序列)和短枝(分化較小的序列)。LBA表現(xiàn)為樹上長枝的不正確分組,但實際上是相距甚遠的分支(圖3)。兩個不相關(guān)的長分支可能偶爾會出現(xiàn)相同的替換。簡約法會將這些趨同點重建為從共同祖先那里繼承的同源共享特征。似然法(ML和BI)對LBA錯誤比簡約法更穩(wěn)健,因為它們能意識到分支的長度,因此考慮到兩個長分支上收斂的可能性增加。然而,如果假設的替代模型不正確或過于簡單,如錯誤地假設各位點的進化速率相同,那么ML和BI也會受到LBA的影響。

        在經(jīng)驗數(shù)據(jù)集中,LBA可能難以識別。它的現(xiàn)象包括兩個或多個快速進化的種系組合在一起,或者一個長支類群加入一個遙遠的外群。因此,通過替換模型的變化來評估這種關(guān)系的魯棒性是很重要的。

        已經(jīng)有一些特別的策略來減少潛在的LBA偽象,如排除進化速率非常高的有問題的物種,去除進化速率非常高的基因或基因區(qū)域(這些基因的排列質(zhì)量也很差),以及增加一些物種,以打破樹上的長分支。最近,對分支長度異質(zhì)性的測量被用來識別那些看起來進化速率異質(zhì)性較低的基因,因此被認為不太容易受到LBA的影響。類似的,有一些方法用于識別和去除單個基因樹上的長枝,從而降低進化速率異質(zhì)性。

Fig. 3 | Heterogeneous rates across lineages and long-branch attraction

Heterogeneity of nucleotide or amino acid compositions across taxa (compositional bias)

        大多數(shù)系統(tǒng)發(fā)育推斷模型假定,在所研究的物種的整個歷史中,替換過程是穩(wěn)定的,因此所有物種都有相同的4個核苷酸或20個氨基酸的替換頻率。在分析遠緣物種時,這種組成上的同質(zhì)性假設經(jīng)常被推翻;一個明顯的例子是當遠緣分類群獨立進化出富含A/T的基因組時。在這種情況下,同質(zhì)性模型的假設將傾向于人為地將具有類似堿基組成的物種分組。

Compositional homogeneity:組成上的同質(zhì)性,系統(tǒng)發(fā)育中各種系的核苷酸或氨基酸頻率的同質(zhì)性。

        處理成分偏差的最佳方法是放寬成分同質(zhì)性的假設,允許特征狀態(tài)頻率參數(shù)在系統(tǒng)發(fā)育過程中漂移。這種模型涉及到樹上每個分支的一組頻率參數(shù),產(chǎn)生大量的參數(shù),計算成本很高。

        規(guī)避這個問題的一個更實用的方法是識別并從分析中去除顯示成分偏差的基因或分類群。有幾種衡量成分偏差的方法(p4、IQ-Tree 和PhyloBayes)。然而,如果偏差最大的類群是關(guān)注的核心類群,或者大多數(shù)基因不能通過同質(zhì)性測試,則不可能刪除基因或類群。

        有人提出的最后一種方法是聚合特征狀態(tài) 。例如,4種核苷酸可以被重新編碼為嘌呤(A和G)和嘧啶(C和T),從而消除任何AT的偏向。同樣,20個氨基酸也被重新編碼為一個縮小的集合,根據(jù)它們的互換性進行分組,在一個替代矩陣中表示120。重新編碼自然會導致信息損失,這本身就可能導致拓撲結(jié)構(gòu)的變化。然而,當數(shù)據(jù)被重新編碼時,檢查成分不同的類群的位置如何變化是很有意義的。

Heterogeneity of rates across sites

        基因組的不同位點以不同的速度進化。膠原蛋白比組蛋白變化得更快,內(nèi)含子比外顯子變化得更快,密碼子的第三個位置比第一和第二個位置變化得更快,蛋白質(zhì)中的一些氨基酸處于強烈的穩(wěn)定選擇之下,而另一些則可以自由變化;最終,假設一個基因的各個部分的速進化率是不變的是不現(xiàn)實的。假設一個單一的(平均)速率會導致系統(tǒng)地低估具有較高速率的位點發(fā)生變化的可能性。正如我們所看到的,低估變化的可能性(從而低估趨同進化的概率)往往會加劇LBA。為了適應這種位點間的速率變化,Yang提出將位點的進化速率建模為一個遵循伽馬分布的隨機變量(圖4a)。由此產(chǎn)生的模型用后綴 ' Γ '或 ' G '表示,并可與任何核苷酸或氨基酸替代模型(如 'JC69 Γ'、'GTR Γ '或 'LG Γ')相結(jié)合。在所有的系統(tǒng)發(fā)育推斷和模型選擇工具中都采用了這種考慮位點間進化速率異質(zhì)性的策略。適應位點間速率變化的替代模型包括自由速率模型(假定有幾個離散的速率類別)和伽馬混合模型(假定有兩個伽馬分布的混合物)。除了排列中不同位點的異質(zhì)性外,替換速率和過程也會隨著時間的推移而變化,也許反映了不同類群中蛋白質(zhì)的結(jié)構(gòu)和功能變化。因此,在一個系統(tǒng)發(fā)育的不同種系中,某個位點的替代速率和模式可能會有很大的不同(圖5);這種現(xiàn)象被稱為 '異質(zhì)性 ',目前處理這種現(xiàn)象的方法在計算上只對非常小的數(shù)據(jù)集進行樹形搜索或?qū)^大的數(shù)據(jù)集進行單樹比較是可行的。

Fig. 4 | Heterogeneous substitution rates and patterns across sites.

Heterogeneity of substitution patterns across sites partition and mixture models

        在系統(tǒng)發(fā)育學中使用的馬爾可夫模型中很容易容納不同類型替代的不同速率。例如,轉(zhuǎn)換和顛換可以被賦予不同的速率,使用兩個參數(shù)。一般的時間可逆模型假定所有的核苷酸以不同的頻率出現(xiàn)(即三個自由模型參數(shù)),并以不同的速率相互改變(即六個可替換性參數(shù))。

        對于20個氨基酸,一般時間可逆模型將涉及209個參數(shù)(19個頻率和190個可替換性)。這個模型參數(shù)豐富,但可以適應中等規(guī)模的數(shù)據(jù)集 。然而,在樹形搜索過程中估計這么多的參數(shù),計算成本很高。取而代之的是更多地使用從數(shù)百或數(shù)千條蛋白質(zhì)序列分析中得到的經(jīng)驗氨基酸模型,包括Dayhoff、JTT、WAG和LG。還根據(jù)特定的蛋白質(zhì)子集(例如病毒、葉綠體和線粒體)計算了經(jīng)驗模型;不同的基因?qū)⑦m合不同的模型。

        系統(tǒng)發(fā)育研究的通常做法是將所有基因串聯(lián)成一個超級基因,從中推斷出一棵樹。然而,基因在進化的速度和過程中可能有所不同?;蛑g的這種差異可以通過分區(qū)模型來解決,該模型構(gòu)建了具有不同參數(shù)的分區(qū),如同一分區(qū)的位點具有共同的進化特征和參數(shù),而不同的分區(qū)具有不同的參數(shù)。分區(qū)模型通過對速率和替換模式的大規(guī)模異質(zhì)性進行計算,提供了一種減少模型錯誤指定的方法。

        在一個有幾百個基因和幾十個模型可供選擇的數(shù)據(jù)集中,給基因分配模型或構(gòu)建一個分區(qū)策略并不簡單。自動化的模型選擇方法通常假設一個固定的樹形拓撲結(jié)構(gòu),并試圖通過改變每個基因的替換模型來最大化數(shù)據(jù)的可能性。一些工具將模型選擇過程與替代分區(qū)方案的評估結(jié)合起來,在這種情況下,適合相同模型的基因被合并到一個更大的分區(qū)中。對于大的數(shù)據(jù)集,分區(qū)選擇和模型優(yōu)化的組合任務在計算上是很密集的。然而,在不同的替換方案下,使用經(jīng)驗數(shù)據(jù)進行系統(tǒng)發(fā)育推斷,可能會導致拓撲結(jié)構(gòu)、分支長度和統(tǒng)計支持的差異。模擬表明,優(yōu)化的分區(qū)方案與基于生物常識的分區(qū)(如按基因或按密碼子)相似,兩種方法都大大優(yōu)于未分區(qū)的數(shù)據(jù)。

Mixture models

        混合模型也可以適應替換速率和模式的位點間的異質(zhì)性(圖4)。在混合模型中,該模型不是將每個位點分配到一個特定的分區(qū),而是將一個位點的總體可能分配到位點類別中。上面討論的位點間可變速率的伽馬模型是一個典型的混合模型。當有生物知識可以將位點分配到明確的分區(qū)時(例如,將一個基因的位點分配到三個密碼子的位置),使用分區(qū)模型是很自然的;當缺乏這種知識時,混合模型提供了一個靈活的選擇。

        在分析蛋白質(zhì)數(shù)據(jù)時,蛋白質(zhì)的不同部分可能有非常不同的替換率,以及對不同氨基酸的偏好是由局部的選擇壓力決定的。一刀切的經(jīng)驗替代矩陣或甚至分區(qū)方法都不可能捕捉到進化過程中的這些微妙之處。因此,混合模型可能是適應氨基酸替換的速度和模式的位點間異質(zhì)性的自然方法?;旌夏P捅确謪^(qū)模型需要更多的計算,因為在不知道每個位點是來自哪個成分的情況下,我們必須在似然計算中對整體成分進行平均計算(圖6)。

        混合模型可用于解釋替換率和替換模式的位點異質(zhì)性。該模型可以假設多個替換矩陣或多套氨基酸頻率。輪廓混合模型使用多個成分,這些成分在20個氨基酸的頻率上有所不同,同時假設它們之間有一套單一的交換率。例如,C10-C60經(jīng)驗模型包括從已知蛋白質(zhì)序列中經(jīng)驗估計的氨基酸頻率。這些模型在貝葉斯和ML框架中都有實現(xiàn)。在PhyloBayes中實現(xiàn)的'CAT'(類別)模型,是概況模型的最廣泛的概括。CAT模型將混合物成分視為自由參數(shù),并從數(shù)據(jù)中估計氨基酸頻率和混合比例(圖4b)。重要的是,CAT模型和其他混合模型在分析遠緣物種時,似乎不容易低估分支長度,對LBA錯誤的反應也比位點均一的模型更有力。

Fig. 6 | Homogeneous partition and mixture models.

Genealogical heterogeneity across genes

        將所有的基因串聯(lián)成一個超級矩陣并推斷出一個單一的樹,假設有一個單一的基因樹包括所有的基因,并且它與物種樹相對應。然而,由于多種生物過程--如祖先物種的多態(tài)性、基因復制和丟失以及水平基因轉(zhuǎn)移,不同的基因或蛋白質(zhì)可能有不同的歷史或基因樹。

        祖先多態(tài)性意味著,當我們向后追蹤其歷史時,來自不同物種的直系同源基因可能不會在到達共同的祖先物種時就合并在一起;因此,基因可能不遵循物種系統(tǒng)發(fā)育,可能具有與物種樹不同的樹拓撲結(jié)構(gòu)(圖7)。這種現(xiàn)象被稱為不完全系譜排序(ILS)、深度合并或基因-物種-樹的不一致。如果物種樹的內(nèi)部分支較短,且祖先物種有較大的種群規(guī)模,則更有可能發(fā)生這種不協(xié)調(diào)現(xiàn)象。即使分析方法忽略了ILS,物種樹中長的內(nèi)部分支所代表的系統(tǒng)發(fā)育關(guān)系也很有可能被解決。然而,對于那些通過輻射性物種演化過程產(chǎn)生的物種(在物種樹中產(chǎn)生短的內(nèi)部分支),ILS可能對物種樹的估計構(gòu)成嚴重的挑戰(zhàn)。

        適應ILS的框架是多物種合并(MSC)模型,是單種群合并在多物種情況下的擴展。在MSC模型下,由于祖先物種的合并過程,基因樹(拓撲結(jié)構(gòu)和分支長度)在基因或基因組區(qū)域之間變化:它們有一個由物種樹和諸如物種分化時間和種群大小等參數(shù)指定的統(tǒng)計分布。因此,MSC過程是繁殖和遺傳漂移的一個自然結(jié)果。簡單的MSC模型已被擴展到包括跨物種的基因流,產(chǎn)生如MSC與遷移(隔離與遷移或IM模型)和MSC與內(nèi)收(MSCi或多物種網(wǎng)絡合并或MSNC模型)。

        納入MSC模型的物種樹方法主要有兩類。摘要或兩步法使用系統(tǒng)發(fā)育程序來推斷單個基因位點的基因樹,然后使用估計的基因樹作為數(shù)據(jù)來構(gòu)建物種樹。流行的兩步程序包括ASTRAL和MP-EST。這些方法計算效率高,可以分析成千上萬的基因,但在重建基因樹時可能會出現(xiàn)錯誤。

        相比之下,完全似然法計算的是序列排列的似然性,因此可以容納基因樹的不確定性。常用的實現(xiàn)MSC模型的程序包括BEAST和BPP;兩者都是MCMC算法,涉及大量的計算,盡管算法的改進使其有可能分析10,000個基因座的數(shù)據(jù)集。

        對模擬和經(jīng)驗數(shù)據(jù)的分析表明,完全似然法優(yōu)于近似合并法和串聯(lián)法。一些基于合并的方法已經(jīng)在相對較淺的分歧中得到了應用和評估,但是這些方法在重建深層系統(tǒng)發(fā)育中的有效性還不太清楚。然而,ILS的根本原因是物種樹的內(nèi)部分支較短,而不是節(jié)點的淺?。荷顚酉到y(tǒng)發(fā)育與淺層系統(tǒng)發(fā)育一樣受到ILS的影響。預計,在未來的幾年里,將有很多人努力評估和克服ILS對生命樹深層部分的影響。

Fig. 7 | Gene-tree–species-tree incongruence.

Conclusions and perspectives

        本文章討論了準確建樹的系統(tǒng)發(fā)育流程,從仔細的數(shù)據(jù)匯總,包括直系同源基因鑒定和避免污染,通過多序列比對,到選擇樹的重建方法和替換模型,以避免系統(tǒng)發(fā)育重建中的系統(tǒng)性錯誤。對于具有挑戰(zhàn)性的系統(tǒng)發(fā)育--特別是涉及遙遠物種的深層系統(tǒng)發(fā)育--選擇基于似然的方法和選擇適當?shù)哪P鸵赃m應不同位點、分類群和時間的分子進化過程中的異質(zhì)性(圖3,4,5)似乎與基礎數(shù)據(jù)的產(chǎn)生同樣重要。

        到目前為止,有一種方法很少受到關(guān)注,那就是開發(fā)可計算的模型,以適應各支系的異質(zhì)性。除了組成上的偏差,氨基酸交換率也被認為在整個生命樹上是變化的。到目前為止,為解決這一問題所采取的策略是刪除數(shù)據(jù)(分類群或基因)或試圖減少其他相關(guān)問題,如位點間的異質(zhì)性。盡管如此,直接對樹的異質(zhì)性進行建模應該可以提供更準確的樹的估計。

        物種輻射和由此產(chǎn)生的物種系統(tǒng)發(fā)育中的短分支是解決生命樹的許多挑戰(zhàn)的原因。這對于深層的物種輻射來說尤是如此(動物界的例子包括哺乳動物和鳥類的分化,以及冠輪動物中的螺旋形裂隙植物群)。在深層輻射中,ILS的問題由于末端分支上的替換飽和導致的系統(tǒng)發(fā)育信號的侵蝕而變得更加嚴重。當分子鐘被嚴重違反時,MSC方法在深度分化中的表現(xiàn)需要仔細研究。最近的工作表明,現(xiàn)有的近似方法可能容易受到LBA錯誤的影響,因此需要研究評估在寬松的時鐘模型下的合并方法在推斷深度分化中的表現(xiàn)。

Glossary

Homologous(同源性):當包括形態(tài)特征和基因位點在內(nèi)的特征從一個共同的祖先繼承下來時,例如,兩個物種中的一個基因來源于一個祖先的基因。

Orthologous(直系同源):由于物種分化事件而產(chǎn)生的同源序列。

Substitution models(替換模型):描述核苷酸或氨基酸之間隨進化時間變化的連續(xù)時間馬爾可夫鏈概率模型。

Species tree(物種樹):一組物種的系統(tǒng)發(fā)育樹,它是單個基因座的基因樹的基礎。

Paralogy(旁系同源):由于復制事件而產(chǎn)生分歧的同源序列,因此在一個生物體的歷史上,兩個旁系同源基因都是一起遺傳的。

Xenology(異同源):源于水平基因轉(zhuǎn)移的同源序列(也稱為橫向基因轉(zhuǎn)移)。

Alignment(對齊):在同源序列中插入空隙,使同列的核苷酸或氨基酸同源。

Gene tree(基因樹):基因位點或基因組區(qū)域序列的系統(tǒng)發(fā)育或譜系樹。

Systematic errors(系統(tǒng)性錯誤):由于不正確的模型假設造成的誤差。

Incomplete lineage sorting(不完全的譜系排序):由于祖先的多態(tài)性,基因樹與物種樹不一致。

Topology(拓撲學):系統(tǒng)發(fā)育樹的分支模式,表明分類群之間的關(guān)系。

Long-branch attraction(長枝吸引):推斷出一棵錯誤的樹的現(xiàn)象,其中具有長枝的分類群被歸類在一起。

Clades(支系):支系是樹上的一組分類群,包括它們最近的共同祖先和所有的后代,也被稱為單系群。

Stochastic errors(隨機誤差):由于對齊序列中的序列長度有限而產(chǎn)生的誤差。

Homogeneous-process model(同質(zhì)過程模型):假設在不同的位點、分類群和時間內(nèi)有相同的替換速率或過程的模型。

Compositional homogeneity(組成同質(zhì)性):系統(tǒng)發(fā)育中各譜系的核苷酸或氨基酸組成頻率的同質(zhì)性。

Mixture models(混合模型):假設不同位點的替代速率或過程不同的模型。

Profile mixture models(輪廓混合模型):假設位點有多套狀態(tài)頻率的模型(例如,CAT、C10-C60)。

Coalescence(合并):當回溯一個樣本序列的歷史時,種系連接的過程。

Genetic drift(遺傳漂變):由于繁殖的隨機性,等位基因頻率在不同代中隨機變化的過程。

Reference

https://doi.org/10.1038/s41576-020-0233-0       

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
使用OrthoFinder進行直系同源基因分析
直系同源預測方法 | Public Library of Bioinformatics
NAR:蛋白功能層級注釋數(shù)據(jù)庫eggNOG5
教程 | [下篇] 規(guī)?;锓N同源基因分析 - orthofinder
系統(tǒng)進化樹
比較基因組學利器之OrthoVenn2
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服