作者:羅遼復(fù) 來源:科學(xué)雜志 發(fā)布者:
劉斌 類別:專題13-RNA研究 日期: 2006-05-18 今日/總瀏覽: 5/2903
金秋九月,兩群科學(xué)家——一群天文學(xué)家和一群生物學(xué)家,他們之中多數(shù)是物理學(xué)出身,具有很強(qiáng)的物理學(xué)背景——聚會(huì)呼和浩特,紀(jì)念愛因斯坦,縱論當(dāng)代自然科學(xué)問題。愛因斯坦是天才的幸運(yùn)兒,他生活在物理學(xué)需要改寫的年代,以太風(fēng)和黑體輻射兩朵烏云遮攔著這個(gè)年輕人的視線,激發(fā)了他敏銳而深刻的科學(xué)思考。他成功地改變了因襲幾百年的關(guān)于自然的觀念,改寫了物理學(xué)的歷史。100年過去了,類似的兩朵烏云——宇宙暗能量和垃圾DNA(junk DNA)問題又呈現(xiàn)在人們眼前。這是牽動(dòng)著多學(xué)科、矛盾極為尖銳、將會(huì)引發(fā)科學(xué)革命的自然科學(xué)基本問題。有誰能說,對(duì)于有志于科學(xué)的青年,這不是一次類似百年前那兩朵烏云一樣的巨大機(jī)會(huì)呢?
暗能量和垃圾DNA
宇宙中的物質(zhì)和能量分布為:可探測到的普通物質(zhì)僅占約4%,暗物質(zhì)約占 23%,暗能量約占 73%。最奇怪的是,占據(jù)宇宙能量大部分的竟是暗能量。1998年美國兩個(gè)觀測組發(fā)現(xiàn)了宇宙加速膨脹,這意味著存在某種與已知作用力完全不相容的“萬有斥力”。這部分能量稱為暗能量。引入暗能量還能對(duì)宇宙學(xué)中很多困難問題,如宇宙年齡問題等給出合理的解釋。這種能量的本質(zhì)是什么?它可能代表宇宙的真空能量密度,也可能還存在某種嶄新的場,對(duì)此,科學(xué)家仍感到茫然,這是第一朵烏云。
原核生物(如大腸桿菌)基因組的DNA序列約88%編碼蛋白質(zhì),約1%編碼穩(wěn)定RNA,但高等生物的情況完全不同。隨著人類基因組測序的完成,已經(jīng)知道編碼蛋白質(zhì)的外顯子僅占基因組的1%,內(nèi)含子占24%,基因間的DNA序列占22%,重復(fù)序列占53%;重復(fù)序列中可移動(dòng)重復(fù)序列(轉(zhuǎn)座子)占45%,簡單重復(fù)序列占3%,大重復(fù)片段占5%。在99%的非編碼序列中,內(nèi)含子被認(rèn)為只是大自然為加速基因進(jìn)化而引進(jìn)的一種把戲,是插在基因中外顯子間的噪聲;基因間序列中只有很少部分被確認(rèn)為與基因表達(dá)調(diào)控有關(guān),剩下絕大部分也是無功能的廢物或垃圾(junk)。大量重復(fù)序列被認(rèn)為來源于“自私的”基因的高復(fù)制能力,完全是中性進(jìn)化中產(chǎn)生的“junk”。為什么高等生物的遺傳物質(zhì)中有高達(dá)90%以上的“垃圾”?對(duì)比低等生物,這個(gè)矛盾顯得更加尖銳。這是懸在當(dāng)代科學(xué)晴空中的第二朵烏云。
宇宙中竟有三分之二以上的物質(zhì)是前所未知的暗能量,約四分之一是性質(zhì)奇特的暗物質(zhì);人的生命中竟有90%以上的遺傳物質(zhì)是沒有或未知功能的垃圾DNA。兩朵烏云如此相像!這是對(duì)人類求知欲的巨大挑戰(zhàn)。一個(gè)談“天”,一個(gè)論“人”。一個(gè)是物質(zhì)和能量,一個(gè)是信息。兩朵烏云的同時(shí)出現(xiàn)意味著兩個(gè)基本學(xué)科的巨大發(fā)展機(jī)遇,意味著需要從一個(gè)新的更高的角度來審視這些問題。本文僅就垃圾DNA問題發(fā)表管見。
是垃圾,還是寶庫?
1950年代末1960年代初開始闡明低等生物的基因結(jié)構(gòu)時(shí),乍一看情況井井有條,但隨著研究工作的深入,發(fā)現(xiàn)基因組結(jié)構(gòu)具有愈來愈高的復(fù)雜性,這些復(fù)雜性很多來自于中性突變,以及基因?yàn)楂@得生存所作的努力。高等生物的基因組90%以上都是非編碼序列,是中性或近中性進(jìn)化中產(chǎn)生的“垃圾”。近兩三年,科學(xué)界對(duì)垃圾DNA的討論日益增多,各種觀點(diǎn)層出不窮,人們開始重新審視這些“垃圾”,發(fā)現(xiàn)它們并非垃圾,而是寶物。
例證之一,可移動(dòng)重復(fù)序列具有整合到基因組新位點(diǎn)的能力,特別是其中的逆轉(zhuǎn)錄轉(zhuǎn)座子,它們?cè)诨蚪M中的數(shù)量隨進(jìn)化而增加,在低等真核生物中只有3%以下,而在哺乳動(dòng)物中幾乎占一半。其中一個(gè)叫做L1序列的轉(zhuǎn)座子,大約每50個(gè)人基因組中就有一個(gè)新的L1序列插入,它具有修復(fù)雙鏈DNA的功能,可幫助它前后的基因移動(dòng)并插入到基因組其他位置,可通過它包含的反義啟動(dòng)子改變基因的表達(dá),還能變成編碼蛋白質(zhì)的基因序列的一部分(L1存在于200 ~ 2 400個(gè)編碼蛋白質(zhì)的基因中)。Alu序列是另一個(gè)逆轉(zhuǎn)錄轉(zhuǎn)座子,其300堿基對(duì)的重復(fù)單元以140萬份拷貝散亂地分布在人類基因組中,它們大約是在4 000萬年前大批進(jìn)入基因組的,至少有20種人類遺傳病與Alu序列的插入有關(guān)。最近發(fā)現(xiàn)Alu序列的外顯子化可導(dǎo)致可變剪接,編碼更多種類的蛋白質(zhì)。這些都說明重復(fù)序列盡管是在中性進(jìn)化中產(chǎn)生的,但后來還可能獲得功能。功能本來就是一個(gè)動(dòng)態(tài)的概念,那些在進(jìn)化過程中被保留下來的重復(fù)序列很可能與后來獲得的功能有關(guān)。脊椎動(dòng)物基因組的快速進(jìn)化動(dòng)用了可移動(dòng)重復(fù)序列,這些移動(dòng)元素變成了基因進(jìn)化的推動(dòng)者。
例證之二,人類基因組中有很多保守的非基因序列,它們?cè)趶镍喿飓F到人的十余種哺乳動(dòng)物中高度保守,比編碼蛋白質(zhì)的基因序列和非編碼的RNA序列更保守,并具有不同于后兩者的獨(dú)立的信息學(xué)特征,且數(shù)量之多驚人,估計(jì)人類基因組中有6萬個(gè),幾乎是編碼蛋白質(zhì)基因數(shù)的2倍。在5′端和3′端非翻譯區(qū),特別是5′端非翻譯區(qū)中,普遍存在著這類保守的非基因序列。盡管它們的功能還不清楚,但從此類序列的物種保守性可以估計(jì)它們編碼了某些功能元素。
例證之三,非編碼RNA中RNA干涉和微RNA在2001和2002年連續(xù)被評(píng)為十大科技新聞之首。微RNA(miRNA)和小干涉RNA(siRNA)性質(zhì)相像,都是長約22核苷酸的小RNA,miRNA通過調(diào)節(jié)內(nèi)源基因表達(dá),對(duì)生物體的正常生長進(jìn)行調(diào)節(jié);siRNA是外源基因誘導(dǎo)下RNA干涉過程中形成的中間體,介導(dǎo)基因沉默,是基因組免疫系統(tǒng)的重要組成部分。兩者都是通過與靶基因配對(duì)來抑制翻譯過程,但前者部分互補(bǔ)于3′端非翻譯區(qū),后者完全互補(bǔ)于靶基因,并切斷之。siRNA可能在進(jìn)化早期已有,由于抑制過于徹底,導(dǎo)致調(diào)節(jié)不可逆,在進(jìn)化過程中產(chǎn)生miRNA來代替它,它們對(duì)基因組的功能都極為重要。
呼喚信息生物學(xué)
昔日自然科學(xué)聚焦于物質(zhì)和能量兩個(gè)基本范疇,“信息”是第三個(gè)基本范疇。生命是物質(zhì),但不僅僅是物質(zhì);生命是能量,但不僅僅是能量;生命還是信息,信息是生命的精髓。人生殖細(xì)胞的DNA只有二千億分之一克重,從物質(zhì)組成來講微不足道,從能量來看也沒有什么珍貴,但它包含了生命發(fā)育、成長一直到死亡的種種信息。更奇妙的是,這些信息是經(jīng)過億萬年自然選擇,在大自然的隨機(jī)背景下形成,由大量的偶然性凝練而成的。根據(jù)香農(nóng)的定義,信息是通過對(duì)事物隨機(jī)選取的可能性來度量的,大量信息意味著大量偶然性。物理學(xué)對(duì)偶然性的習(xí)慣處理是進(jìn)行統(tǒng)計(jì)研究, 但自然界教給我們的另一種處理方法是對(duì)每一次的偶然性進(jìn)行隨機(jī)確定,通過自然選擇找出一條最佳或較佳的路線(或序列),這類保留下來的序列反映了大量偶然性背景中形成的生命之序。 如果說物理學(xué)是研究能量的學(xué)科,那么生物學(xué)就是研究信息的學(xué)科。
分子生物學(xué)需要有一條主線來統(tǒng)領(lǐng)理論研究,這條主線筆者以為是以揭示生命信息流的基本規(guī)律為核心,依據(jù)這些規(guī)律,解釋和預(yù)測基本的分子生物學(xué)實(shí)驗(yàn),并建議將這種研究稱作信息生物學(xué)。近年興起的生物信息學(xué)是在基因組海量數(shù)據(jù)出現(xiàn)的條件下,生物學(xué)理性化的一種努力,但主要還局限于數(shù)據(jù)處理的范圍;而信息生物學(xué)將對(duì)生命信息本身,對(duì)生命信息的遺傳、傳輸、控制與表達(dá)的基本規(guī)律進(jìn)行研究??梢灶A(yù)期,在這種理論觀點(diǎn)下,垃圾DNA的本來面貌將被揭示,進(jìn)化將從信息產(chǎn)生和控制的角度給出全新的理解,各種結(jié)構(gòu)與功能的關(guān)系將獲得系統(tǒng)的詮釋和預(yù)測。
信息和能量不同,不具守恒性。信息的擴(kuò)增是生物學(xué)的基本規(guī)律之一,它在生物學(xué)中的意義如同物理學(xué)的能量轉(zhuǎn)換和守恒。薛定諤的微型密碼觀念對(duì)10年后分子生物學(xué)的誕生極其重要,但忽略了一個(gè)重要方面,沒有考慮遺傳信息是如何積累擴(kuò)增和進(jìn)化的。信息生物學(xué)將建立在幾個(gè)基本規(guī)律的基礎(chǔ)上,其中第一規(guī)律就是信息擴(kuò)增律:
在DNA、RNA、蛋白質(zhì)的相互作用下,通過序列復(fù)制和編碼方式增加,以及基因在基因組間轉(zhuǎn)移等機(jī)制,基因組DNA的編碼信息量Ic在進(jìn)化中隨時(shí)間增長(dIc /dt≥0)。
熵增加是自然界的普遍規(guī)律,但此處所說的不是孤立系統(tǒng),也不是一般的熵增加,而是編碼信息量。編碼信息量是編碼狀態(tài)數(shù)的對(duì)數(shù)。用4個(gè)字母構(gòu)成的長N的序列來編碼,編碼狀態(tài)數(shù)為4N,編碼信息量為2N。如此序列中有d個(gè)位點(diǎn)不參與編碼,則編碼狀態(tài)數(shù)為4N-d,編碼信息量2(N-d)。
序列復(fù)制是導(dǎo)致信息量增加的重要原因。重復(fù)序列通過變異形成新基因新功能,使編碼信息量增加;也可能失活而變成假基因,不貢獻(xiàn)編碼信息量。產(chǎn)生新編碼方式是導(dǎo)致信息量增加的另一重要原因。對(duì)于一個(gè)復(fù)雜系統(tǒng),由于子系統(tǒng)間的隨機(jī)作用,而不斷增加新的編碼關(guān)系,這種編碼關(guān)系往往來源于某種結(jié)構(gòu)匹配和物理化學(xué)作用,一般地,總是不斷增加的。普適遺傳密碼的反常和新氨基酸(硒代半胱氨酸、吡咯賴氨酸)的出現(xiàn)就是兩個(gè)例子,后者來源于無意義密碼子的重新詮釋。它們表明了進(jìn)化中信息量的擴(kuò)增以及擴(kuò)增是基于新編碼方式的建立。
必須強(qiáng)調(diào),這里所說的編碼不一定是遺傳密碼。如miRNA和siRNA就提供了進(jìn)化中產(chǎn)生不同于遺傳密碼的新編碼關(guān)系的實(shí)例。miRNA和siRNA作用機(jī)理的關(guān)鍵在于形成了一種編碼機(jī)制,即從mRNA出發(fā),經(jīng)過包括Dicer酶在內(nèi)的多種酶的參與,加工成小RNA雙鏈復(fù)合物,然后降解成22核苷酸的單鏈RNA分子,再和多種分子形成稱為RISC(RNA誘導(dǎo)沉默復(fù)合體)的RNA蛋白質(zhì)復(fù)合體,再通過RISC對(duì)靶RNA切割降解而實(shí)現(xiàn)功能。又如從DNA的初級(jí)轉(zhuǎn)錄物到成熟RNA的剪接和可變剪接(切除基因內(nèi)部不編碼蛋白質(zhì)的內(nèi)含子)以及RNA編輯(以另一RNA為模板修飾mRNA前體),是另一不同于遺傳密碼的新編碼關(guān)系。這些例子都說明任何編碼關(guān)系的形成都是需要多種因子參與的復(fù)雜過程。
生命是DNA、RNA、蛋白質(zhì)三元素相互作用的信息系統(tǒng),遺傳信息的形成、存儲(chǔ)、表達(dá)和傳輸經(jīng)常是在這三元素相互作用中實(shí)現(xiàn)的,三元素相互作用比二元素相互作用增加了更多的可能性和復(fù)雜性。如RNA和蛋白質(zhì)可對(duì)DNA序列有運(yùn)算功能,對(duì)DNA中某些位點(diǎn)的某些符號(hào)進(jìn)行修飾(如刪除或插入)等。這都將使基因組的編碼信息量擴(kuò)增。又如,基因調(diào)節(jié)路線可通過蛋白質(zhì)反作用于DNA,也可由調(diào)節(jié)基因的轉(zhuǎn)錄物作用于操縱子的RNA。老子說:“道生一,一生二,二生三,三生萬物。” 總結(jié)這三元素在生命過程中的作用,我們不妨引用這樣的命題和假設(shè):三=無窮大。
朊病毒(prion)與蛋白質(zhì)病是三元素相互作用的例子。瘋牛病的病原體是蛋白質(zhì),有正常Pr P c 和病態(tài)PrP sc兩種形態(tài),PrP c 有4個(gè)α螺旋,而PrP sc中其中2個(gè)變成β折疊,此過程沒有核酸參與。但這些信息是如何傳下來的?一般來說,遺傳病的機(jī)制存在于DNA、RNA、蛋白質(zhì)三元素相互作用的網(wǎng)絡(luò)中;實(shí)驗(yàn)表明,PrP c到 PrP sc的轉(zhuǎn)變過程需要寄主RNA分子參與。因此搞清瘋牛病遺傳機(jī)制的關(guān)鍵在于弄清楚這三元素相互作用的網(wǎng)絡(luò),此中必有新的編碼關(guān)系,且這個(gè)編碼和結(jié)構(gòu)有關(guān)。
表觀遺傳是不同于通常DNA碼的信息,主要有三種類型的信息傳遞方式:通過DNA修飾(如胞嘧啶甲基化)的信息傳遞;由染色質(zhì)中組蛋白修飾(如甲基化、磷酸化、乙?;?、泛蛋白化)引起的組蛋白復(fù)合體再組織;三是通過雙鏈RNA傳遞遺傳信息。表觀遺傳也說明了信息編碼的多樣性和擴(kuò)增。
編碼信息量的增長速度可作為物種進(jìn)化速率的標(biāo)度,但是如果這個(gè)增長速度仍不能適應(yīng)環(huán)境的劇變(如資源匱乏),那么物種就可能會(huì)瀕臨滅絕。有的細(xì)菌在寄生中丟失功能而使基因組的編碼信息量減少,這是一種退化現(xiàn)象,不屬于信息擴(kuò)增律描述的范圍。
基因組的信息擴(kuò)增律是否和實(shí)驗(yàn)資料一致?與解決垃圾DNA問題有什么關(guān)系?已知基因組的進(jìn)化復(fù)雜性和它的大小沒有關(guān)系,同一門或綱的不同物種基因組大小可能有幾十倍甚至上百倍的差別,但各門或綱的基因組最小值從原核生物到真核哺乳動(dòng)物則是依次增加的[1]。這粗略反映了編碼蛋白質(zhì)的信息量隨物種遺傳復(fù)雜性而增加。此外,還有一個(gè)需要重視的規(guī)律:基因密度隨物種遺傳復(fù)雜性的增加而明顯減小,從原核生物的1 000基因/百萬堿基對(duì),到酵母的500基因/百萬堿基對(duì),再到哺乳動(dòng)物的20基因/百萬堿基對(duì)。這說明基因調(diào)節(jié)機(jī)制的復(fù)雜性隨著基因組的復(fù)雜性而增加。如果除了編碼蛋白質(zhì)的信息量外,把調(diào)節(jié)機(jī)制中的編碼關(guān)系也算進(jìn)來,則編碼信息量隨物種進(jìn)化而遞增的圖像就會(huì)很清晰。實(shí)際上,基因組的復(fù)雜性主要來源于基因的功能,決定于基因間的相互作用,不是決定于基因的數(shù)量。人類蛋白質(zhì)結(jié)構(gòu)域和其他動(dòng)物相比并未增加多少,但它們有不同的蛋白質(zhì)結(jié)構(gòu)體系,人類細(xì)胞質(zhì)膜和細(xì)胞外蛋白質(zhì)結(jié)構(gòu)體系增大很多,基因的相互作用和基因調(diào)控密切相關(guān)。
原核生物基因表達(dá)調(diào)控的機(jī)理已被莫諾(J. Monod)闡明,但真核生物基因表達(dá)調(diào)控的機(jī)理復(fù)雜得多,可在多個(gè)水平發(fā)生,最主要是在轉(zhuǎn)錄水平。典型地,啟動(dòng)子包含轉(zhuǎn)錄起始位點(diǎn)上游10 000堿基對(duì)至下游6 000堿基對(duì)的范圍,含RNA聚合酶和調(diào)節(jié)蛋白(轉(zhuǎn)錄因子)的多個(gè)結(jié)合位點(diǎn),由4~8個(gè)調(diào)節(jié)模體(motif)組成一個(gè)模塊,如增強(qiáng)子、阻遏子等,每個(gè)調(diào)節(jié)模體由5~10堿基對(duì)組成。這里的復(fù)雜性在于:不同轉(zhuǎn)錄因子可識(shí)別相近的模體,而對(duì)應(yīng)一定轉(zhuǎn)錄因子的模體在各位點(diǎn)上都未必完全保守,且模體的位置可變。所以,基因組中調(diào)節(jié)模體的數(shù)量和性質(zhì)都是進(jìn)化中較易改變的。調(diào)節(jié)模體構(gòu)成真核基因組非編碼序列的相當(dāng)大部分:考慮到模體的可變性, 如果10堿基對(duì)長的模體有410個(gè),每個(gè)模體出現(xiàn)一次,它們就約占1.68×108堿基對(duì),是人基因組的二十分之一。由此可見,轉(zhuǎn)錄調(diào)節(jié)機(jī)制可能占到了基因組中相當(dāng)大部分的基因表達(dá)調(diào)控。以上估算說明了真核生物DNA編碼信息量擴(kuò)增的情況,編碼信息量遠(yuǎn)大于其蛋白質(zhì)編碼區(qū)的信息量。
如果基因組信息擴(kuò)增律是正確的,我們就可以研究每一基因組的編碼信息量的演化,并和其他物種的基因組比較,從總體上把握各基因組的垃圾DNA情況,估算其中可能包含的編碼關(guān)系,搞清這部分“暗信息”的意義。這也將有助于全面認(rèn)識(shí)真核基因調(diào)節(jié)網(wǎng)絡(luò),從分子水平上解決生命活動(dòng)如何在時(shí)間軸上展開這一基本問題。
信息生物學(xué)的基本規(guī)律
除基因組信息擴(kuò)增律外,作為信息生物學(xué)的基礎(chǔ),至少還有兩個(gè)方面的問題需要研究,一是關(guān)于遺傳信息傳輸各階段上的信息提取,二是生命信息系統(tǒng)的精確性和對(duì)于擾動(dòng)的魯棒穩(wěn)定性。前者是指:從DNA序列中提取基因識(shí)別信息、啟動(dòng)子信息、內(nèi)含子剪切信息,或者從mRNA序列和氨基酸序列中提取蛋白質(zhì)結(jié)構(gòu)信息等。例如,從DNA序列中提取信息時(shí)下面的規(guī)律可能是重要的:
基因組DNA的編碼序列的多樣性在進(jìn)化中趨向于由各種功能約束規(guī)定的穩(wěn)定值。
這里的多樣性與給定編碼規(guī)則下各種編碼狀態(tài)出現(xiàn)概率的分布有關(guān),包括序列中堿基和堿基片段含量的多樣性,一定位點(diǎn)上堿基分布和堿基關(guān)聯(lián)的多樣性等。它和信息熵有關(guān),但不是熵,在應(yīng)用上更便于進(jìn)行序列(或序列片段)的比較[2]。各編碼狀態(tài)的概率分布受到兩個(gè)互相矛盾互相補(bǔ)充的因素制約:一是堿基的隨機(jī)突變,二是功能約束(包括功能進(jìn)化和功能擴(kuò)展)造成的堿基保守性,因此狀態(tài)概率的變化表現(xiàn)出復(fù)雜的進(jìn)化關(guān)系。但由于功能約束的進(jìn)化相對(duì)緩慢,而堿基突變是較快發(fā)生的事件,因此DNA序列還是顯示出一定功能約束下堿基突變導(dǎo)致的隨機(jī)性,從而使多樣性取穩(wěn)定值。這個(gè)特性可用來對(duì)序列進(jìn)行預(yù)測;當(dāng)然,在預(yù)測時(shí)必須權(quán)衡各種多樣性的貢獻(xiàn)才能獲得滿意的結(jié)果。哈肯(H. Haken)曾經(jīng)把最大信息原理作為非平衡系統(tǒng)的基本原理,這個(gè)規(guī)律在提法上和哈肯的最大信息原理有相似處,但實(shí)質(zhì)是不同的。
蛋白質(zhì)結(jié)構(gòu)預(yù)測實(shí)質(zhì)上是一個(gè)結(jié)構(gòu)信息如何提取的問題[3],是用純動(dòng)力學(xué)的方法去處理,還是從尋找編碼關(guān)系的角度去解決?盡管安芬森(Anfinsen)原理指出蛋白質(zhì)折疊是系統(tǒng)的自由能極小態(tài),似乎僅從動(dòng)力學(xué)途徑就可以找到折疊態(tài)。但實(shí)際上多肽鏈的折疊是一個(gè)需要細(xì)胞內(nèi)多個(gè)分子協(xié)助的過程;基因編碼多肽鏈,而多肽鏈并非成熟蛋白質(zhì)。蛋白質(zhì)的功能決定于其折疊,在酶和分子伴侶(其他多肽鏈)的幫助下,對(duì)一個(gè)多肽鏈進(jìn)行折疊、修飾、修復(fù)、保護(hù)、輸運(yùn),也許還有剪切(除蛋白內(nèi)含子、信號(hào)肽外)和組裝,才能使它變成活性蛋白質(zhì),其中包含的很多編碼關(guān)系有待探索。除氨基酸序列外,mRNA信息是否對(duì)蛋白質(zhì)折疊有影響也是一個(gè)沒有解決的問題[4]。所以,遺傳信息流從序列到蛋白質(zhì)結(jié)構(gòu)傳輸中包含哪些編碼關(guān)系?有沒有某些結(jié)構(gòu)碼在起作用?仍然是解決蛋白質(zhì)折疊問題時(shí)需要著重研究的。
關(guān)于生命信息系統(tǒng)的精確性和對(duì)于擾動(dòng)的魯棒穩(wěn)定性,至少有下面幾個(gè)規(guī)律需要研究:一是通過改變和適當(dāng)安排冗余提高信息傳輸?shù)木_性; 二是通過網(wǎng)絡(luò)結(jié)構(gòu)增加系統(tǒng)的容錯(cuò)性和耐攻擊性;三是通過和環(huán)境熵交換達(dá)到系統(tǒng)的熱力學(xué)穩(wěn)定性和保持系統(tǒng)的有序性。為便于讀者討論,試作具體陳述如下[5]:
第一,信息傳輸?shù)慕獯a誤差隨信息冗余增加而減小,而提高精確度(減小解碼誤差)一般可能降低傳輸效率(減小信息傳輸量)。香農(nóng)在信息論中證明:通過重復(fù)發(fā)射可在一個(gè)噪聲通道中傳輸準(zhǔn)確信息。推廣開來,信息冗余相當(dāng)于香農(nóng)模型中的重復(fù)發(fā)射,盡管分子生物學(xué)問題和香農(nóng)模型并不完全符合,但通過增加信息冗余減小解碼誤差,并在過程中保持較大的接近通道容量的信息傳輸量,這在分子生物學(xué)中也是可能的。
第二,復(fù)雜生物網(wǎng)絡(luò)具有無標(biāo)度性、模塊性和容錯(cuò)性。近年來一些學(xué)者首先從代謝網(wǎng)絡(luò)證明了度(和一結(jié)點(diǎn)聯(lián)系的邊數(shù))的分布遵守?zé)o標(biāo)度冪律,此分布的意義在于:結(jié)點(diǎn)數(shù)隨機(jī)減少的情況下,信息不通暢程度(網(wǎng)絡(luò)直徑)沒有增加。同時(shí)證明了網(wǎng)絡(luò)中具有高度的蛋白質(zhì)在傳遞相互作用時(shí)起到了不可或缺的作用;也證明了模塊性,保證局部的破壞不會(huì)傳播到網(wǎng)絡(luò)的整體。
第三,為抵消不可避免的熵產(chǎn)生,使系統(tǒng)處于低熵有序的熱力學(xué)穩(wěn)定態(tài),系統(tǒng)必須和環(huán)境接觸,有足夠強(qiáng)的向外移動(dòng)的熵流(生命以“負(fù)熵”為生);同時(shí),健康細(xì)胞可能具有熵產(chǎn)生率極小的特性。
此命題前半部分是一條熱力學(xué)規(guī)律,其證明是顯然的。信息量和熵有基本相同的表達(dá)式,但兩者涉及的自由度不同,有本質(zhì)的差異,用統(tǒng)計(jì)物理學(xué)術(shù)語來說,信息量是熵在某個(gè)子空間上的投影。因此,熵流不等于信息流,但熵流可以負(fù)載信息流。伴隨著熵的流動(dòng),它也負(fù)載著漂移信息流和擴(kuò)散信息流;生命系統(tǒng)的熱力學(xué)有序性要求它和環(huán)境有信息交換。此命題后半部分尚需進(jìn)一步證明,但已有證據(jù)表明癌細(xì)胞有比正常細(xì)胞更高的熵產(chǎn)生率。
同一個(gè)科學(xué),同一個(gè)夢想
丘成桐在《京都弦學(xué)之會(huì)記》一文中寫道:“唯至小能窺大,因至美而知真”;又寫道:“茍真美之可知,孰天人之難合?”[6]這幾句話談了自然規(guī)律探索中的三個(gè)關(guān)系:小和大、美和真、天和人。
至小窺大:20世紀(jì)的微觀物理學(xué)對(duì)自然科學(xué)和人類文明的貢獻(xiàn)是人所共知的;微電子學(xué)是當(dāng)代技術(shù)革命的核心——信息技術(shù)的基礎(chǔ):沒有粒子物理學(xué)就沒有今天的精確宇宙學(xué);沒有顯微鏡和解剖學(xué),沒有原子分子的知識(shí),就沒有近代的生物科學(xué)和醫(yī)學(xué)。
至美知真:物理學(xué)的基本方程唯有從至美的追求才能得到。這些方程是“造物者的詩篇”,“像歌德式建筑所歌頌的崇高美、靈魂美、宗教美、最終極的美”(楊振寧),光做實(shí)驗(yàn)而沒有理論思維是得不到的。伽利略、牛頓開啟的,愛因斯坦發(fā)揚(yáng)光大的實(shí)證性與理性相結(jié)合的科學(xué)規(guī)范在物理學(xué)領(lǐng)域取得了光輝成就,這種結(jié)合正在向物理學(xué)以外的學(xué)科(包括生命科學(xué))滲透。
天人合一:哥白尼天體運(yùn)行理論和牛頓的經(jīng)典力學(xué)把地球看作眾多天體中的一員,把天體運(yùn)動(dòng)和地面物體運(yùn)動(dòng)統(tǒng)一起來,實(shí)現(xiàn)天地合一。然而生命現(xiàn)象一直在對(duì)物理學(xué)進(jìn)行挑戰(zhàn),似乎必須引入某種活性物質(zhì)和活力才能解釋生命。現(xiàn)代分子生物學(xué)的進(jìn)展已有可能把生命歸屬于“自然”之內(nèi),從天地合一到天人合一,從人類作為自然的外化力量到人和自然的同一化。這樣的目標(biāo)已經(jīng)顯露眼前:人了解宇宙,也了解自己,了解人在宇宙中的發(fā)生,最后達(dá)到人與自然和諧合一的境界。
自然科學(xué)正面臨著極大、極小和極復(fù)雜三個(gè)方向的統(tǒng)一。極大和極小在宇宙演化和基本粒子世界中已經(jīng)顯示其統(tǒng)一,盡管新近精確宇宙學(xué)中暗能量之謎表明兩大方向的統(tǒng)一還有更多的余地。至于談到與極復(fù)雜方向的統(tǒng)一,那么問題的難度就更大了,科學(xué)家的努力剛剛開始。困難的部分原因在于物理科學(xué)與生物科學(xué)方法的不同,還有就是兩大學(xué)科發(fā)展水平的差異, 物理科學(xué)較多地實(shí)現(xiàn)和得益于真和美的統(tǒng)一,而生物科學(xué)的理性化才剛開始。物質(zhì)和能量的統(tǒng)一在物理科學(xué)中已經(jīng)完成,生物科學(xué)本質(zhì)上以研究信息為最終目標(biāo),而信息和物質(zhì)能量的統(tǒng)一遠(yuǎn)未完成。宇宙暗能量和垃圾DNA兩朵烏云同時(shí)懸掛于眼前,似乎向我們昭示著這個(gè)自然科學(xué)大統(tǒng)一的目標(biāo):物質(zhì)能量和信息的統(tǒng)一。
丘成桐的四句話中前兩句總結(jié)了物理科學(xué)中統(tǒng)一極大和極小兩個(gè)方向的經(jīng)驗(yàn),后兩句指出了把這個(gè)經(jīng)驗(yàn)推廣到物理科學(xué)和生物科學(xué)的統(tǒng)一,推廣到天人合一,推廣到物質(zhì)能量和信息的大統(tǒng)一途徑。
“同一個(gè)世界,同一個(gè)夢想”,這個(gè)口號(hào)體現(xiàn)了奧運(yùn)的目標(biāo)和理想。科學(xué)是人類崇高的事業(yè),面對(duì)自然科學(xué)大統(tǒng)一的目標(biāo),筆者想說這樣一句話:“同一個(gè)科學(xué),同一個(gè)夢想。”
[1] 余龍,江松敏,趙壽元等譯. Lewin B著. 基因VIII. 北京:科學(xué)出版社,2005.
[2] Zhang L R,Luo L F. Nucleic Acids Research,2003, 31:6214.
[3] Luo L F,Li X Q. Proteins,2000,39:9.
[4] Luo L F,Jia M W,Li X Q. Biopolymers,2004,74:432.
[5] 羅遼復(fù). 內(nèi)蒙古大學(xué)學(xué)報(bào),2005,36(6):653.
[6] 丘成桐. 科學(xué),2005,57:1.
作者: 羅遼復(fù)
來源: 科學(xué)雜志
發(fā)布者:
劉斌