在今天的地球上,被子植物是植物界里的統(tǒng)治者,它們進(jìn)化程度最高,種類最多,分布最廣,適應(yīng)能力也最強(qiáng),然而,最原始的被子植物究竟應(yīng)該長成什么樣子?它們最早是什么時(shí)候出現(xiàn)的?又是在哪里出現(xiàn)的?古被子植物的系統(tǒng)發(fā)育和基因進(jìn)化一直是一個(gè)有趣的話題,今天和大家一起探討一下一個(gè)特別的植物無油樟。
The Amborella Genome and the Evolution of Flowering Plants
2013年發(fā)于Science
無油樟(學(xué)名:Amborella trichopoda),自成一目、一科、一屬,只生長在新喀里多尼亞,是一種孑遺植物。無油樟是現(xiàn)存被子植物中已知最早和其它被子植物分開演化的,因而倍受植物學(xué)家注目。就像鴨嘴獸基因組對哺乳動(dòng)物的出現(xiàn)提供參考一樣,無油樟為人類了解開花植物或被子植物,甚至裸子植物的演變打開了一扇窗。
當(dāng)今植物分子系統(tǒng)學(xué)的研究把無油樟放在了被子植物生命樹的基部,使其成為其它所有被子植物的姊妹群,這也讓這種植物身上的一些原始特征有了更好地解釋,也讓科學(xué)家們離未知的、最原始的被子植物更加貼近了一步。
無油樟組裝使用鳥槍法組裝結(jié)合了23G來之不通測序平臺(tái)的single和paired-end數(shù)據(jù)(30X)。組裝結(jié)果中含有5,745條scaffold 706M,通過整合了BAC、BAC-base的物理圖譜,體外熒光原位雜交,全基因組光學(xué)圖譜的方法來評估基因組的質(zhì)量。對比當(dāng)今Hi-C等技術(shù),只組裝到scaffold level顯然有點(diǎn)不太完美,但這個(gè)方法在當(dāng)時(shí)2012年還是很先進(jìn)的??傮w還行,不知道近年來會(huì)不會(huì)有其他人去改進(jìn)這個(gè)基因組的組裝結(jié)果。
基因和重復(fù)序列的注釋使用的 DAWGPAWS-EVM 的pipeline,使用EVM糅合不同的evidences,這方法到現(xiàn)在還一直被不同的研究者使用著。無油樟的基因數(shù)目與擬南芥相似。通過Evidence Modeler整合注釋結(jié)果,得到了26,846個(gè)基因,其中20,301(76%)基因有轉(zhuǎn)錄組數(shù)據(jù)支持。其中有17,089個(gè)基因有一個(gè)或多個(gè)內(nèi)含子,86.9%的剪接位點(diǎn)有轉(zhuǎn)錄本支持。對比葡萄,擬南芥,還有桃子,無油樟有著更長的intron。 bisulfite sequence mapping表明無油樟中普遍存在基因體甲基化,表明它是開花植物最近的共同祖先中發(fā)現(xiàn)的祖先特征。
研究者將來自無油樟的scaffold水平的信息與來自葡萄(V. vinifera),桃(Prunus persica)和可可(Theobroma cacao)的染色體水平數(shù)據(jù)重建假定的七個(gè)推斷的六倍體前染色體的結(jié)構(gòu) 在核心雙子葉植物的祖先。
無油樟基因組結(jié)構(gòu)沒有顯示全基因組復(fù)制的證據(jù),因?yàn)檫@個(gè)譜系與被子植物的其余部分至少分離160 Ma。然而,分析表明,在所有活的被子植物多樣化之前不久,與全基因復(fù)制相關(guān)的復(fù)合基因拷貝就是復(fù)制的結(jié)果。 這個(gè)事件代表了植物中已知的最古老的全基因組復(fù)制,其結(jié)構(gòu)證據(jù)依然存在。 無油樟基因組因此為闡明現(xiàn)存被子植物的MRCA中的基因組含量和結(jié)構(gòu)以及解決WGD和單基因損失和增益的時(shí)間提供了獨(dú)特的進(jìn)化參考,這有助于被子植物的多樣化
為了評估使用無油樟基因作為參照物去研究的被子植物基因的起源和歷史的可行性,研究者將來自22個(gè)測序的陸生植物基因組的蛋白質(zhì)編碼基因聚類為53136個(gè)正交群(狹義定義的基因譜系,由相關(guān)的pfam提供注釋 領(lǐng)域和完整的基因GO term包含在這些集群中的基因)。對被子植物衍生正交基因GO注釋的分析揭示了正交群的起源,其功能與定義開花植物進(jìn)化枝有重要關(guān)系。研究者發(fā)現(xiàn),在這組正交群中被過度表達(dá)的GO注釋,與生殖有關(guān)的(花發(fā)育,生殖發(fā)育過程,授粉和類似術(shù)語)。這些觀察結(jié)果表明,大多數(shù)花卉基因的直向同源物早在它們在開花中確立特定作用之前就已存在,并且它們后來被選作為花功能。在被子植物起源之后,新基因起源于或被招募來改進(jìn)或更狹窄地解析與花發(fā)育相關(guān)的功能。功能類別的富集模式在祖先種子植物和祖先被子植物中相似,包括參與生殖,調(diào)節(jié)和發(fā)育過程的新基因譜系。
MADS-Box基因, 糖原合成激酶3基因(GSK3), 種子存儲(chǔ)的球蛋白, 萜類物質(zhì)的合成基因,細(xì)胞壁和木質(zhì)素基因都出現(xiàn)在無油樟的基因擴(kuò)增中。以無油樟為參考,研究者研究了被子植物進(jìn)化過程中基因家族多樣化的模式,通常與被子植物譜系之間的表型分歧有關(guān)。
下面選取其中一個(gè)講一講:
GSK3基因編碼信號(hào)轉(zhuǎn)導(dǎo)蛋白,在真核生物的各種生物學(xué)過程中起作用。 與其在動(dòng)物中的低拷貝數(shù)相反,GSK3基因在陸地植物中很多,并且具有不同的功能,包括被子植物中的花發(fā)育。祖先被子植物中存在的五個(gè)GSK3基因座隨后在主要被子植物譜系中多樣化,但僅在無油樟中檢測到第六個(gè)祖先基因座。因此,在開花植物中,無油樟單獨(dú)可能含有在現(xiàn)存被子植物起源之前出現(xiàn)的所有GSK3基因譜系,這凸顯了無油樟重建祖先被子植物基因組的重要性。
無油樟中的轉(zhuǎn)座子比其他被子植物晚,LTR插入時(shí)間大約在40百萬年,末端重復(fù)序列顯示至少80%的分歧度才能鑒定LTR家族,而無油樟僅僅只有10%的LTR顯示出高的差異度,因此通過一個(gè)聚類的方法來鑒定LTR的家族。內(nèi)源病毒占基因組的2.4%,TEs和內(nèi)源病毒代表57.2%的基因組序列,僅僅只有四種DNA TEs被鑒定,CACTA和TC1/Mariner 類型沒有出現(xiàn)。大多數(shù)DNA TEs高度降解,具有高度不同的序列并缺失末端反向重復(fù)序列,這再次表明數(shù)百萬年以來可識(shí)別元素的持續(xù)存在。 無油樟基因組中最近缺乏轉(zhuǎn)座子活性可能是由于非常有效的沉默或活性轉(zhuǎn)座酶的丟失。
無油樟在新喀里多尼亞潮濕熱帶森林生長,通過重測序12來之已知群體的個(gè)體,遺傳多樣性(θω=0.0017, π= 0.0021),與毛果楊相似,平均的Tajima ’s D across是0.8137,可能代表平衡選擇。然而,通過snp calling,基因組在等位基因變異中顯示出顯著的locus和scaffold的差異。例如scaffold 1,是高度多樣性的,其他一些區(qū)域就接近沒有這跟selective sweeps and/or a mixed mating system都有關(guān)。
這是一篇很牛的文章雜合了多組學(xué)的分析,借助很多文章和資料也是弄懂了其中一二。
核心信息:
無油樟和其它被子植物比較,幫助了核心雙子葉植物最近共同祖先中祖先被子植物基因內(nèi)容和順序的重建。我們鑒定了新的基因家族,基因復(fù)制和第一次出現(xiàn)在祖先被子植物開花蛋白的互作。無油樟的轉(zhuǎn)座元件古老且高度分化,并且沒有近期的轉(zhuǎn)座子擴(kuò)增。新喀里多尼亞以內(nèi)的無油樟群體分析表明無油樟近期的遺傳瓶頸和地理結(jié)構(gòu)的保守性。
有興趣的朋友也可以通過原文鏈接查看該文獻(xiàn)的原文。
還有更多文章,請移步公眾號(hào)閱讀
聯(lián)系客服