(文/Michael Le Page)GTGCCAGCAGCCGCGGTAATTCCAGCTCCAATA GCGTATATTAAAGTTGCTGCAGTTAAAAAG
這看起來像是錯按鍵盤打出的亂碼,但這條DNA序列確實意義重大,它存在于你身體的每一個細(xì)胞中,在你養(yǎng)的貓狗體內(nèi),在你盤中的魚、花園中的蜜蜂與蝴蝶,甚至你腸道的細(xì)菌中。事實上,你在地球上任何地方找到的生物,從深海底沸騰的熱泉生物到云端的冰冷細(xì)菌,都擁有這條DNA序列。甚至,在一些事實上并沒有活性的物體,比如巨型病毒擬菌病毒中,你也能找到它。
這條DNA序列分布如此廣泛,是因為它是在所有生命的共同祖先體內(nèi)演化而來的。它擔(dān)負(fù)著一項決定性的任務(wù),幾乎從未改變。換一種方法說,你體內(nèi)一些DNA的年齡不可思議地高達(dá)30億歲,從你的幾萬億祖先那里未經(jīng)干擾地傳遞給了你。
你的另一些DNA則是嶄新的。你的基因組大約有100個基因突變是你父母沒有的,小到僅僅一至兩個核苷酸的改變,大到整條DNA的得與失。
通過基因組對比,我們可以確認(rèn)哪些DNA是新的,哪些是老的。例如,對比你跟兄弟姐妹的基因組,可以將嶄新的基因突變揭示出來。將人類基因組與動物的作比較,則可以分辨基因的新老。
我們的基因組不僅是造人的“秘方”,還是活的歷史詞典。基因組由60億個核苷酸組成,足夠?qū)憹M一堆十米高的書藉,正因為它們是如此巨量,才能記錄我們過去的點點滴滴,允許我們追溯從現(xiàn)在到生命之初的整個演化歷史。
在剛開始破譯這些記錄的時候,我們就發(fā)現(xiàn)自己的祖先不止面臨著血肉相博的生存競爭,還經(jīng)歷了史詩般的基因組戰(zhàn)役,這改變了基因組的工作方式,使我們成為現(xiàn)在的我們。

共同祖先
最初存在的是RNA,它是一種“多才多藝”的分子,不僅能存儲信息,還能催化反應(yīng)。這意味著,一些RNA可以自我復(fù)制。一旦一個或一群RNA開始自我復(fù)制,最早的基因便誕生了。
RNA的基部不是特別穩(wěn)定,因此很早的時候,生命體就開始在另一種分子——DNA上儲存信息。DNA有一個略微不同的化學(xué)骨架,更不容易斷裂。蛋白質(zhì)也將RNA當(dāng)作催化劑,RNA的作用逐漸弱化成了介質(zhì)。DNA存儲制造蛋白質(zhì)的信息,并向蛋白質(zhì)工廠釋放相應(yīng)的RNA轉(zhuǎn)錄體。
RNA曾經(jīng)主宰世界的許多痕跡,仍存在于我們的基因組中。比如文章開頭提到的那段無處不在的基因序列,仍編碼一種RNA酶的一部分。這種RNA酶在蛋白質(zhì)的合成過程中仍然起著關(guān)鍵作用。
大約35億年前,出現(xiàn)了一種含有基因組的生命體,被稱為所有生命的共同祖先(LUCA,Last Universal Common Ancestor of all life)。它的基因組由制造RNA和蛋白質(zhì)的信息體組成。在美國馬里蘭州貝塞斯達(dá)國家衛(wèi)生研究院研究生命演化的尤金·庫寧(Eugene Koonin)說,至少100個基因確信源于LUCA,而LUCA可能總共擁有超過1000個基因。
雖然與我們所知的現(xiàn)代生命長得不一樣,LUCA擁有許多在現(xiàn)代生命中仍可找到的核心體系,包括蛋白質(zhì)制造體系。一些研究者相信,LUCA絕不是一個分離的、由膜包覆的細(xì)胞,而是由類似病毒的個體組織而成的復(fù)合體,在無生命的隔間(比如堿性熱液噴口的孔洞)內(nèi)不斷復(fù)制。
分離與重聚
接下來可能發(fā)生的情況是,LUCA類似病毒的部分機(jī)體,通過兩次不同的契機(jī),吸附了細(xì)胞膜而變成了簡單的細(xì)胞。這可以解釋兩種截然不同的簡單細(xì)胞,細(xì)菌和古菌,為什么會擁有完全不同的細(xì)胞膜。庫寧說:“這是非常引人注目的假設(shè)。”可以肯定的是,生命在很早之前就產(chǎn)生了分枝。
細(xì)菌與古菌演化出了一些奇妙的分子機(jī)器,并且改變了地球,但仍然只是化合物構(gòu)成的小小囊泡而已。直到發(fā)生了一件非同尋常的事件,將這兩大分枝重新聚合成一個復(fù)雜細(xì)胞,即真核細(xì)胞。這一事件改變了基因組,也為第一批動物的出現(xiàn)鋪平了道路。
距今大約10億年前,一只古菌“吞食”了一只細(xì)菌,但并沒有殺死它。相反,它們攜手形成了一種共生關(guān)系,細(xì)菌的后代逐漸擔(dān)負(fù)起了一個重要角色——線粒體,成為了細(xì)胞內(nèi)供應(yīng)能量的工廠。
如果沒有這次重聚,復(fù)雜生命或許根本不會出現(xiàn)。我們傾向于假設(shè),簡單有機(jī)體向復(fù)雜個體演化是自然趨勢,但單獨的細(xì)菌和古菌至今在復(fù)雜程度上也沒有太大變化。原因何在?
據(jù)英國倫敦大學(xué)學(xué)院的尼克·萊恩(Nick Lane)說,這是因為它們遇到了一個能量瓶頸。所有的簡單有機(jī)體都利用細(xì)胞膜產(chǎn)生能量。當(dāng)它們變大時,相對表面積變小,因此不能產(chǎn)生足夠的能量,所以簡單有機(jī)體必須維持微小體。同時,小細(xì)胞也沒有足夠的空間容納大的基因組。通過提供模塊化的完備能量源,線粒體突破了這一瓶頸。細(xì)胞只需要制造更多線粒體,就能夠變得更大。相應(yīng)地,基因組得以擴(kuò)充,信息存儲能力也有效提高。
除了讓細(xì)胞從能量困境中擺脫出來,線粒體的祖先還是我們多達(dá)3/4基因的源泉。最古老的細(xì)菌大約擁有3000個基因,它們中的大多數(shù)都隨著時間流逝或消失,或進(jìn)入主基因組中,只給現(xiàn)在的線粒體留下了少量的基因。
盡管益處顯而易見,但重聚也存在極大的危險。確切地說,線粒體祖先的基因被一些寄生DNA感染了。這些寄生DNA被稱為轉(zhuǎn)位子(transposon),除了不停復(fù)制自己之外什么都不做。有時它們在基因中段定位,攜帶大量不相干的DNA形成內(nèi)含子(intron)。這就像在一本熬湯菜譜中夾了一段糕點配方一樣。
當(dāng)然結(jié)果并不總會致病,因為內(nèi)含子能在RNA離開細(xì)胞核(這是蛋白質(zhì)生成的第一步)進(jìn)行轉(zhuǎn)譯前自我剪接。但這個過程并不總會發(fā)生,因此內(nèi)含子的存在是有害的。絕大多數(shù)細(xì)菌基因中沒有內(nèi)含子,因為細(xì)菌數(shù)量眾多,相互之間競爭激烈,自然選擇會殘酷地將有內(nèi)含子的個體剔除。然而,早期真核細(xì)胞數(shù)量極少,因此自然選擇作用較弱,古老線粒體上的寄生基因便開始瘋狂進(jìn)行自我復(fù)制,最終導(dǎo)致基因組上有成百上千的內(nèi)含子。
現(xiàn)在,我們的每一個基因中都有約8個內(nèi)含子,它們中的絕大多數(shù)可追溯至最早的真核生物——我們的祖先沒有采取任何措施來擺脫它們。相反,祖先演化出了一些方法來應(yīng)對它們,比如改變基因的結(jié)構(gòu)以及細(xì)胞再生的方式。性,便是其中之一。
性的優(yōu)勢
性的關(guān)鍵作用不僅是不同個體基因的混合,同樣重要的,還有將兩個不同譜系的進(jìn)化優(yōu)勢綜合起來。單細(xì)胞生物早就在通過無性的方式交換基因了。
性還涉及到一個過程,被稱為再結(jié)合(recombination)——在分裂為精子或卵細(xì)胞之前,染色體會交換相應(yīng)的單體。再結(jié)合將基因組中的許多基因像項鏈上的珠子那樣串起來,從而解決了一個基本問題。
想象一串項鏈上有一顆珍貴的珍珠,挨著另一顆有瑕疵的珍珠。如果不能對單顆珍珠進(jìn)行替換,你就只有兩種選擇:要么將整串項鏈扔掉,要么全部留下。同樣的道理,如果有益突變鄰近有害突變,要么一起扔掉有益突變,要么就連有害突變都一同保留,最終通過相鄰細(xì)胞傳染整個族群。
再結(jié)合提供了一個交換單顆珍珠的機(jī)會。通過交換單顆珍珠,你可以得到一條完美項鏈和一條滿是瑕疵的項鏈。同樣的道理,你的一些后代會獲得大量的優(yōu)秀基因,另一些則會得到大量有害基因,甚至包含一些致命的內(nèi)含子。不幸的個體極易死去,而優(yōu)秀個體將存活下去。
大族群中會產(chǎn)生大量突變,其中總有一些能夠抵消有害基因的影響,因此不太需要借助再結(jié)合之力。對于小族群而言,性就勝出了。也正因為如此,性成了最早的真核生物及其絕大部分后代的標(biāo)準(zhǔn)配置。因此,下一次你在享受魚水之歡的時候,一定不要忘記感謝古老的細(xì)菌祖先將性愛之樂的寄生基因保留至今。

到了性演化出現(xiàn)的時候,已經(jīng)有太多的內(nèi)含子需要擺脫。因此早期真核生物很快就面臨了另一個嚴(yán)重問題:隨著內(nèi)含子獲得越來越多的變異,自我剪接機(jī)制開始失效。相應(yīng)地,早期真核生物演化出了一種特殊機(jī)制,被稱做“剪接體”(spliceosome),會將內(nèi)含子從轉(zhuǎn)錄后的RNA上剪下來。
剪接體是演化產(chǎn)生的一種不夠“靈光”的解決方法:從RNA上剪下基因的無用片段,比直接從DNA上剪下來,效率要低得多。更嚴(yán)重的是,剪接體反應(yīng)較慢,許多RNA都已經(jīng)到達(dá)蛋白質(zhì)工廠了,內(nèi)含子仍未剪掉,便導(dǎo)致了缺陷蛋白質(zhì)的產(chǎn)生。
庫寧推測,這就是細(xì)胞核出現(xiàn)的原因。一旦一個細(xì)胞的DNA被封閉在一個相對隔絕的空間中,遠(yuǎn)離蛋白質(zhì)工廠,只有剪接過的RNA可以進(jìn)出,就可以防止細(xì)胞浪費能量去制造無用的蛋白質(zhì)。
但這也無法解決所有問題,剪接體常常誤將已編碼的基因片段(被稱為外顯子)剪掉,從而產(chǎn)生蛋白質(zhì)的突變體。庫寧說:“選擇性剪接不是一種適應(yīng),而是有機(jī)體不得不去應(yīng)付的一件事情?!?/p>
因此,我們的古老祖先演化出了一層又一層的復(fù)雜機(jī)制,以對抗內(nèi)含子的增生,但這無法解決它們引起的所有問題。不過,與簡單細(xì)胞不一樣,它們能量充裕,已能負(fù)擔(dān)得起這樣的浪費。同時,長遠(yuǎn)來看,這樣的復(fù)雜化也蘊(yùn)育了新的良機(jī)。
多功能與調(diào)控
內(nèi)含子與外顯子的存在,能夠使基因更加模塊化。在一個連續(xù)不間斷的基因中,基因片段得失而產(chǎn)生的突變,往往會改變剩余基因的讀取,從而產(chǎn)生混亂。相反,外顯子的移除卻不會干擾其他基因。于是,基因現(xiàn)在可以通過雜合外顯子而演化了。
例如,偶然的突變將一個額外的外顯子添加到一個基因上。由于選擇性剪接的存在,原始版本的蛋白質(zhì)仍能被制造出來,但這也意味著該基因還能產(chǎn)生一種新的蛋白質(zhì)。這一突變可能沒有太多影響,因此不會被自然選擇剔除。但久而久之,新種蛋白質(zhì)有可能承擔(dān)新的作用。極其偶然的情況下,真核生物這種不“靈光”的應(yīng)對內(nèi)含子的方法,讓它們的基因變得功能更加多樣化,也更容易演化了。
如果關(guān)于復(fù)雜細(xì)胞演化的這種觀點是正確的,我們基因組的諸多關(guān)鍵特征,從模塊化基因到性,就都是線粒體寄生基因存在的直接結(jié)果。其他學(xué)說無法被完全否定,但這是最漂亮的解釋。庫寧說:“這是我最喜歡的場景?!?/p>
所有這些新奇的特征導(dǎo)致了演化變革的大爆發(fā),真核生物不僅生存了下來,還開始多樣性分異。盡管如此,它們?nèi)匀幻鎸χ滦图纳鶧NA及病毒入侵的猛烈攻擊。不過,在超越簡單細(xì)胞的大小限制之后,復(fù)雜生命體能自由演化出越來越復(fù)雜的防御體系。
其中之一便是給DNA加標(biāo)記,使轉(zhuǎn)位子的寄生基因失去活性,從而阻止RNA拷備的出現(xiàn)——這被稱為甲基化作用(methylation)。另一種方法是,破壞入侵病毒的RNA來禁止其自我復(fù)制。這些防御方法僅部分有用?,F(xiàn)在,約5%的人類基因由病毒的殘余及變異片段組成,其中殘余片段占大多數(shù)。令人驚訝的是,有多達(dá)50%的人類基因由轉(zhuǎn)位子的殘余組成——這也足以證明,有多少次這些寄生物設(shè)法闖入了我們祖先的基因組,并肆虐開來。
這些防御體系很快就被委以另一項重任:調(diào)控細(xì)胞自身基因的活性。加拿大圭爾夫大學(xué)的瑞安·格雷戈里(Ryan Gregory)是研究基因組演化的專家,他說:“原本調(diào)控轉(zhuǎn)位子的機(jī)制成了調(diào)控基因的機(jī)制。”
塑造身體
大約在8億年前,演化進(jìn)入到一個新的階段,細(xì)胞開始了從未有過的密切合作關(guān)系。雖然有少量細(xì)菌是多細(xì)胞的,但復(fù)雜程度上的限制使它們絕不會在復(fù)雜化道路上走得太遠(yuǎn)。相反,真核生物則利用一系列的契機(jī)進(jìn)入了多細(xì)胞演化階段,最終產(chǎn)生了高度復(fù)雜的有機(jī)體,如真菌、水藻、陸生植物,還有動物。
原因之一便是它們越來越豐富和大型化的基因組,這些基因組被委以新的重任,比如將細(xì)胞聯(lián)接起來并相互交流。更重要的是,這些基因組的本質(zhì)屬性允許快速演化的發(fā)生。例如,將細(xì)胞聯(lián)接起來的蛋白質(zhì)由橫跨細(xì)胞膜的和向外突出的兩部分組成。由于基因的模塊化,所有蛋白質(zhì)的向外突出部分都可以任意與橫跨細(xì)胞膜的部分錨接起來,就像真空吸塵器上粘附著不同的物品。許多控制多細(xì)胞性的關(guān)鍵基因,都是通過外顯子的混雜演化出來的。
另外,真核生物控制基因的復(fù)雜機(jī)制能夠使細(xì)胞更加專業(yè)化。通過控制不同基因的表達(dá)與否,不同的細(xì)胞群可以扮演差異極大的角色。于是,有機(jī)體開始發(fā)展出不同類型的組織,使早期生命從簡單的水綿類生物逐漸演化為擁有復(fù)雜體征的動物。
接下來的跳躍式演化,是一系列基因“事故”的結(jié)果。繁殖過程發(fā)生錯誤時,有時整條基因都可能被重復(fù)復(fù)制——在所有脊椎動物的祖先身上,這樣的偶然事件不止發(fā)生了一次,而是兩次。
這些基因的復(fù)制品產(chǎn)生了大量額外的基因拷備,其中的絕大多數(shù)都遺失了,另外一些卻承擔(dān)起了新的角色。確切地說,這樣的重復(fù)復(fù)制產(chǎn)生了4組Hox基因,這是一種在發(fā)育過程中塑造身體的主宰基因,在內(nèi)骨胳的演化過程中扮演著極為關(guān)鍵的角色。
整個基因組的重復(fù)復(fù)制是少見的,絕大多數(shù)新基因都來自較小的重復(fù)復(fù)制,或外顯子的混雜,或二者兼有。演化會利用任何有用的基因,而不管它們從何而來,一些關(guān)鍵基因源于垃圾DNA,另一些則來自其他地方。
例如,大約在5億年前,我們祖先的基因組被一種稱作hAT轉(zhuǎn)位子的寄生基因入侵。它能通過一種“剪切與粘貼”機(jī)制來復(fù)制自己。這種“剪切”的過程,由與特定DNA序列聯(lián)結(jié)的兩種酶來實現(xiàn)。
早期脊椎動物演化到某一時間點,這種與DNA剪切酶相關(guān)的序列進(jìn)入到了一個基因當(dāng)中(或是出現(xiàn)在了它的附近),這個基因與辨識入侵的細(xì)菌與病毒有關(guān)。結(jié)果便是,在個體的整個生活史中,只要它的細(xì)胞進(jìn)行復(fù)制,hAT酶就會剪切掉這個基因的一部分。關(guān)鍵是,在不同的細(xì)胞譜系中,被剪切掉的部分不相同,這便形成了大量不同的蛋白質(zhì)變異體。
在某些情況下,這種變化是救命的,因為變異蛋白質(zhì)更適合鎖定入侵病原體。很快,一種用于辨識最有效細(xì)胞并促進(jìn)其快速復(fù)制的機(jī)制產(chǎn)生了,這就是免疫系統(tǒng)?,F(xiàn)今人類的免疫系統(tǒng)復(fù)雜得難以置信,但其中的兩種調(diào)控剪切與重排基因的酶正是hAT酶的直系后裔,是靶定入侵者的關(guān)鍵環(huán)節(jié)。所以,我們要感謝那種古老的“寄生蟲”,帶給了我們防御疾病的最有效武器。

人類基因組
配備了這些先進(jìn)武器,再加上能夠產(chǎn)生各種身體形狀的基因組,早期脊椎動物異常成功。它們占領(lǐng)了海洋,攻陷了陸地,攀上了樹木,最后從樹上下來,用兩條腿直立行走。
是什么使我們與其他猿類差異甚大?最主要的區(qū)別在于:我們擁有23對染色體,而不是猿類祖先的24對。但是染色體本質(zhì)上是基因庫:只要我們需要的基因還在,染色體在分離或合并時就只會產(chǎn)生出極小的差異。更確切地說,一系列小變化的積累才逐漸改變了我們的大腦與身體。我們已經(jīng)辨識出了一些關(guān)鍵變異,但仍有成千上萬個沒被發(fā)現(xiàn)。
我們可以清楚地看出,細(xì)胞和身體復(fù)雜性的增加始于基因組復(fù)雜性的增加。不過讓人震驚的是,最初基因復(fù)雜性的增加是由于自然選擇的缺失,而非受其引導(dǎo)。格雷戈里說:“基因?qū)用嫔习l(fā)生的絕大多數(shù)事情,可能都是中性的。”
換句話說,變異的出現(xiàn)不會產(chǎn)生任何影響,比如某個基因的重復(fù)復(fù)制。在大族群中,這種變異很快就會丟失。但在小族群中,它能通過遺傳漂變隨機(jī)傳播。庫寧說:“這是群體遺傳不可避免的結(jié)果。”只有到后來,比如重復(fù)復(fù)制的這個基因獲得新的功用之時,這樣的復(fù)雜性才會被自然選擇所選中。
許多人類史上的關(guān)鍵事件,如產(chǎn)生Hox基因的基因重復(fù)復(fù)制,可能是某個小族群在沒有什么選擇壓力的情況下出現(xiàn)的。事實上,正是人類出現(xiàn)之初種群數(shù)量上的一次“瓶頸”事件(即全部人類的數(shù)量下降到某個極小數(shù)值),能夠解釋引起人類與猿類巨大差異(比如肌肉力量的降低)的變異為何能夠分布得如此廣泛。
另一個驚人事實就是,病毒與寄生基因也發(fā)揮著重要的作用。我們基因組的許多主要特征,從性到甲基化,都演化自對病毒與寄生基因入侵的抵抗。更有甚者,我們體內(nèi)相當(dāng)數(shù)量的基因和外顯子,如免疫酶類,都直接來自于這些入侵者。庫寧說:“在最開始,病毒就是細(xì)胞生命的必要組成部分。”
雖是必要,卻并不舒服。我們的演化付出了巨大的代價。他們都說歷史是由勝利者書寫的,那么好吧,我們的基因組就是一部充滿了各種實驗的勝利史。這些實驗要么是成功的,要么至少沒把祖先殺死。我們是一長串“樂透”彩票中獎?wù)叩暮笠?,這個“樂透”彩票的獎品,就是生產(chǎn)能夠繼續(xù)繁衍后代的后代。在這條道路上,有不計其數(shù)的失敗者,超過萬億的動物都沒能存活下來。
我們的基因組離優(yōu)秀與完美還相差很遠(yuǎn),相反,它是將遺傳“事故”的殘余與古寄生物的遺存簡單拼接起來的產(chǎn)物,它是某種會受到倫理學(xué)范疇批判的瘋狂、無序?qū)嶒灥漠a(chǎn)物。這個過程持續(xù)至今:去到任何一家醫(yī)院,您都會發(fā)現(xiàn)死于可怕遺傳疾病的嬰兒,但死亡率已不像過去那么高了。多虧了胎兒掃描之類的技術(shù),我們開始有能力控制人類基因組的演化了。
一個新的紀(jì)元,即將來臨!
編譯自:《新科學(xué)家》,A brief history of the human genome
詞匯表
- 古菌:兩種簡單有機(jī)體中的一種。
- 細(xì)菌:兩種簡單有機(jī)體中的一種。
- 真核細(xì)胞:擁有復(fù)雜內(nèi)部結(jié)構(gòu)的復(fù)雜細(xì)胞。
- 外顯子:基因中能夠編碼蛋白質(zhì)的那部分。
- 基因:制造蛋白質(zhì)或活性RNA的信息庫。
- 內(nèi)含子:基因中不能編碼蛋白質(zhì)的那部分,在RNA將信息帶到蛋白質(zhì)工廠前,內(nèi)含子通常會被剪切下來。
- LUCA:所有生命的共同祖先。
- 剪接:從RNA上移除內(nèi)含子的過程。
- 轉(zhuǎn)位子:一種基因寄生物,編碼一些酶類,能夠?qū)⒆陨韽?fù)制與粘貼到基因組的其他部分。