一、什么是進化樹二、進化樹的構(gòu)成1. 根 (Root)2. 結(jié)點 (Node)3. 進化支 (Branch)4. 外群5. 進化分支長度6. 距離標(biāo)尺7. Bootstrap value三、進化樹評估1. Bootstrap檢驗2. 重復(fù)取樣值3. Bootstrap value 閾值4. Bootstrap value 與分支四、幾種進化樹圖1.經(jīng)典樹圖(Traditional)Rectangle Tree2.圈圖(Circle Tree)3.輻射樹(Radiation Tree)
系統(tǒng)發(fā)育進化樹 (Phylogenetic tree): 一般也叫系統(tǒng)進化樹,進化樹。它可以利用樹狀分支圖形來表示各物種或基因間的親緣關(guān)系。
建進化樹的過程,用術(shù)語講:
分支系統(tǒng)發(fā)育分析 (Molecular phylogenetic analysis): 是用來研究物種或序列進化和系統(tǒng)分類的一種方法。一般研究對象是堿基序列或氨基酸序列,通過數(shù)理統(tǒng)計算法來計算生物間進化關(guān)系。最后,根據(jù)計算結(jié)果,可視化為系統(tǒng)進化樹。
我們模擬一個項目,使用人和鼠的各兩個基因做進化樹,結(jié)果如下:
可以看到上面有一堆標(biāo)注,下面來看看它們代表什么意義:
所有分支的共同祖先叫做根
根據(jù)有無根可分為:
有根樹:上面的圖就是有根樹,可以從樹中找到共同的祖先。
無根樹:顧名思義,沒有根,也就找不到共同的祖先。比如后邊會提到的 Straight Tree
每個結(jié)點代表一個分類單元,物種上可以是屬,種群等,基因上可以是基因家族,同源物等。
這里需要注意,有的人會把 node 翻譯為節(jié)點,但是節(jié)點與結(jié)點有著不一樣的含義:
節(jié)點:通常被認(rèn)為是一個實體,比如互聯(lián)網(wǎng)上的每臺計算機,蛋白互作網(wǎng)絡(luò)的每個蛋白質(zhì)。
結(jié)點:只是一個交叉點,指交匯點,并不代表一個實體或事物
但是,也有另外一種解釋:
這種解釋將 node 分為 外部節(jié)點與內(nèi)部節(jié)點:
外部節(jié)點又叫葉節(jié)點,也就是最外層的人基因1,人基因2等,代表參與分析的序列樣本
內(nèi)部節(jié)點,也就是我們使用藍色標(biāo)注的位置,代表假定祖先。
也叫分支,指兩種及以上的生物或序列組成的進化關(guān)系。
可以利用這個來看同源。比如,上圖中人基因1與人基因2可能是旁系同源基因,而人基因1與鼠基因1可能是直系同源基因。
與分析序列相關(guān)的生物序列,但是具有較遠的親緣關(guān)系。
也叫遺傳變異度,進化距離。一般會標(biāo)注在分支線上,代表進化支變化的程度,越短代表差異越小,進化距離越近。比如人基因1與人基因2的遺傳變異度為 0.21 0.22=0.43。 遺傳變異度實際代表基因組序列中每個位點堿基的替換頻率,計算方法也很簡單:變異度=變異堿基數(shù)/總堿基數(shù)(%)。我們常見的形式,通常以0-1的小數(shù)來表示,代表100個堿基位點的變異度大小。
我們可以從水平方向上的分支及長度,看到進化譜系隨著時間的變化,進化分支長度越長代表著該分支對應(yīng)的物種或基因的變化越大。比如,對應(yīng)上圖,我們可以描述為人基因1相對其他基因在進化時間上更早,而且在進化時間上鼠基因2最晚。
有意思的是,根據(jù)基因序列相似度與進化時間假說對這種進化距離進行轉(zhuǎn)換,就可以得到分子鐘。比如,用它分析病毒進化樹,甚至可以推斷出初代病毒產(chǎn)生的時間點。
生物或序列間差異數(shù)值的單位長度,相當(dāng)于進化樹的比例尺。
一般會標(biāo)注在結(jié)點,用來評估該分支的可信度。
Bootstrap value 對于我們后續(xù)分析比較重要,尤其在進化樹評估中。
對于進化樹評估一般會使用 Bootstrap 進行檢驗。
Bootstrap檢驗,自舉法檢驗,也叫自展,自助法。其實就是放回式抽樣統(tǒng)計法的一種,通過對數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個進化樹,用來檢查給定樹的分枝可信度。
那么重復(fù)取樣的次數(shù)會在建樹時設(shè)置,現(xiàn)在一般文章要求Bootstrap 取樣值 >1000。
雖然根據(jù)嚴(yán)格的統(tǒng)計學(xué)概念,自展值需要要大于95%才較為可信。
然而在實際應(yīng)用中,我們一般認(rèn)為結(jié)點的 Bootstrap value > 70,這個分支就是可靠的。特別是微生物等相似度比較大的分類中,一般大于50%就認(rèn)為可信(小于50%不會顯示)。
如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很難區(qū)分
如果低 Bootstrap value 更靠近根,代表相似度太低
優(yōu)點很明顯,就是可以清晰的展示出樣本間進化距離和進化分支。缺點就是展示出來效果不炫。
有時候也可以這樣顯示,相對來說,更酷一點:
Straight Tree
再酷一點:
Curved Tree
本質(zhì)上是將樹圖極坐標(biāo)化。這種圖,可以說是進化樹最炫的一種展示,而且在分析樣本數(shù)量大的時候,效果更佳。但是,致命缺點是可讀性不好,比如很難橫向?qū)Ρ冗M化距離。因此,適用于展示差異較大的物種或基因樣本。
這種圖用于根不確定的進化樹構(gòu)建。它可以將相似度高的樣本序列聚集在一起。因此,更適合做親緣關(guān)系近的物種或差異小的基因樣本。