国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
用數(shù)學(xué)詮釋生命——當(dāng)今生物信息與計(jì)算生物學(xué)回顧(一)
用數(shù)學(xué)詮釋生命——當(dāng)今生物信息與計(jì)算生物學(xué)回顧(一)
 


李小凡
Xiaofan Li
Cambridge Computational Biology Institute (CCBI)
Department of Applied Mathematics and Theoretical Physics (DAMTP), University of Cambridge, CB3 0WA, United Kingdom

本文接受任何形式的轉(zhuǎn)載和轉(zhuǎn)發(fā),但請(qǐng)保留文章標(biāo)題和內(nèi)容的完整性以及作者署名信息

從數(shù)學(xué)第一次嘗試介入解決分子生物學(xué)問(wèn)題開(kāi)始算起,至今已經(jīng)有大概四分之一個(gè)世紀(jì)了。所以,所謂 “生物信息學(xué)” 和其近親“計(jì)算生物學(xué)”,并不是如人們想象的那樣新興。在上世紀(jì) 70 年代,已經(jīng)開(kāi)始出現(xiàn)針對(duì)核苷酸序列比對(duì)算法的研究,其基礎(chǔ)就直接來(lái)自于計(jì)算機(jī)算法研究的發(fā)展-動(dòng)態(tài)規(guī)劃 (Dynamic programming),即在兩個(gè)長(zhǎng)度為 N 和 M 的序列正交形成的 N x M 的矩陣中,對(duì)每一個(gè)元素 (i,j) 根據(jù)某種機(jī)制打分,并在打好分的 N x M 中尋找一條自左上至右下得分之和為最小的路徑,即最短路徑,又即最佳比對(duì)方案。值得一提的是,動(dòng)態(tài)規(guī)劃并不只適用于序列對(duì)比,用遞歸算法實(shí)現(xiàn)動(dòng)態(tài)規(guī)劃的思想,最初就是用來(lái)解決諸如 Travelling Salesman, 背包問(wèn)題及其派生出的優(yōu)化問(wèn)題的。

自 80 年代開(kāi)始,序列信息開(kāi)始成倍的增長(zhǎng),因?yàn)闇y(cè)序技術(shù)在這個(gè)時(shí)間得到了相當(dāng)大的發(fā)展。另一方面,計(jì)算機(jī)的計(jì)算和存儲(chǔ)能力在這 10 年內(nèi)迅速提高,給各種數(shù)學(xué)理論在分子生物學(xué)中的應(yīng)用奠定了硬件基礎(chǔ)。畢竟,生物的復(fù)雜度要遠(yuǎn)遠(yuǎn)超過(guò)自然,用筆來(lái)計(jì)算生物學(xué)中的規(guī)律,是絕無(wú)可能的(這也是 19 世紀(jì)末 20 世紀(jì)初理論物理和如今“理論生物學(xué)”的顯著區(qū)別之一)。生物系統(tǒng)是非線性的,隨機(jī)的,這就決定了數(shù)學(xué)在生物學(xué)中的介入,以數(shù)值問(wèn)題和隨機(jī)過(guò)程為主;而在其他學(xué)科,如微觀經(jīng)濟(jì)和理論物理中的數(shù)學(xué),往往是分析問(wèn)題。對(duì)于依賴數(shù)值解,時(shí)間復(fù)雜度又相當(dāng)高的問(wèn)題,使用計(jì)算機(jī)是唯一的解決方案。真正意義上的生物信息學(xué)和計(jì)算生物學(xué),就基本上在此時(shí)誕生了。另一方面,分子生物學(xué)上取得的進(jìn)展,尤其是用于測(cè)定蛋白質(zhì) 3D 結(jié)構(gòu)的 X 射線晶體分析 (X-ray crystallography) 和核磁共振 (Nuclear Magnetic Resonance, NMR) 技術(shù)的進(jìn)步,使得生物學(xué)者對(duì)蛋白質(zhì)結(jié)構(gòu)和其序列之間的關(guān)系有了更加清晰的印象。而蛋白質(zhì)結(jié)構(gòu)域又往往與其生理功能相適應(yīng),這就給分子生物學(xué)中的幾大類研究建立了聯(lián)系,即功能研究依賴于結(jié)構(gòu)研究,結(jié)構(gòu)研究又依賴于針對(duì)蛋白質(zhì)序列的分析。再加上 Watson-Crick 中心法則,使蛋白質(zhì)序列與基因序列相關(guān),就形成了研究生物學(xué)“主流”問(wèn)題的一整套體系。雖然依據(jù)這種思路的實(shí)驗(yàn)方法在 80 年代就已經(jīng)相對(duì)完善,但直到以隨機(jī)過(guò)程和概率論為先鋒的數(shù)學(xué)開(kāi)始介入其中之后,這個(gè)體系的內(nèi)在聯(lián)系與規(guī)律才開(kāi)始被真正揭示出來(lái)。所謂“生物信息學(xué)”和“計(jì)算生物學(xué)”,實(shí)際上應(yīng)當(dāng)歸納為“理論生物學(xué)”。不過(guò),理論生物學(xué)一詞目前還較少提及,因?yàn)橹敝两袢眨谏飳W(xué)研究里,仍然缺少嚴(yán)密、規(guī)范、完整的理論體系。但是,從彼時(shí)起,我們至少已經(jīng)開(kāi)始在正確的道路上前行。

時(shí)至 90 年代,個(gè)人計(jì)算機(jī)性能的再一次爆棚,使得處理生物學(xué)中復(fù)雜序列問(wèn)題的金錢和時(shí)間成本又一次大大降低,許多原先由于過(guò)于復(fù)雜而不可實(shí)現(xiàn)的算法,在快速 CPU 和大容量?jī)?nèi)存的支持下得以輕松運(yùn)行。最顯著的例子就是 BLAST 算法與序列數(shù)據(jù)庫(kù)在過(guò)去 15 年中的“協(xié)同進(jìn)化”。BLAST (Myers & Miller, 1990) 是動(dòng)態(tài)規(guī)劃解決序列問(wèn)題最著名的一個(gè)實(shí)現(xiàn)版本,派生出無(wú)數(shù)應(yīng)用,如位于 NCBI 基于 GenBank/UniProt 的各種 BLAST 搜索引擎,又如各種獨(dú)立的 BLAST 小程序等。在生物信息學(xué)剛開(kāi)始為普通大眾所知的年代里,BLAST 與 NCBI 幾乎成了該學(xué)科的代名詞,以至于很多人(包括相當(dāng)多的生物學(xué)家)認(rèn)為,生物信息學(xué)就是測(cè)序,BLAST, 測(cè)序,BLAST, 測(cè)序,BLAST! 誠(chéng)然,90 年代對(duì)這個(gè)領(lǐng)域來(lái)說(shuō),是數(shù)據(jù)爆增的時(shí)代,因此針對(duì)數(shù)據(jù)存儲(chǔ)和直接搜索的應(yīng)用顯得尤為重要,如各種各樣的數(shù)據(jù)搜索工具和序列比對(duì)程序。另一個(gè)所謂生物信息學(xué)程序包,EMBOSS,在這個(gè)時(shí)代也逐漸被豐富和完善。EMBOSS 由很多小程序組成,每個(gè)程序能根據(jù)給定的一個(gè)序列計(jì)算這個(gè)序列的某一個(gè)屬性,如計(jì)算 GC 含量,尋找 CpG 島,預(yù)測(cè)內(nèi)含子剪接位點(diǎn),等等。這些應(yīng)用也確實(shí)屬于生物信息學(xué)范疇,但是在如今的觀點(diǎn)看來(lái),只能說(shuō)是相當(dāng)基礎(chǔ)的應(yīng)用了。實(shí)際上,這些小程序只是手工處理序列信息的自動(dòng)化版本,他們除了作為“計(jì)算器”給分子生物學(xué)家提供了更快獲得序列某種屬性的途徑之外,并沒(méi)有產(chǎn)生更多的價(jià)值,也沒(méi)能將生物信息學(xué)從“工具”轉(zhuǎn)化為獨(dú)立的研究方向。

生物信息學(xué)真正作為一門獨(dú)立而有重要作用的學(xué)科,始于其計(jì)算生物學(xué)分支在 90 年代的發(fā)展。不同于廣為人知的 DNA 和基因,這個(gè)分支是從研究蛋白質(zhì) 3D 結(jié)構(gòu)開(kāi)始發(fā)展的,即從結(jié)構(gòu)生物學(xué)入手。在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),甚至直到今天,許多生物學(xué)者理解的結(jié)構(gòu)生物學(xué),就是指用 X 射線晶體分析和核磁共振 (NMR) 測(cè)定蛋白質(zhì)結(jié)構(gòu),這也是多數(shù)結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)室如今仍然在做的事情。用于儲(chǔ)存這些測(cè)定好的結(jié)構(gòu)的數(shù)據(jù)庫(kù),PDB (http://www.pdb.org), 至今已有數(shù)萬(wàn)條記錄。對(duì)于某些熱點(diǎn)蛋白質(zhì),PDB 里往往會(huì)有不同實(shí)驗(yàn)室在不同時(shí)間用不同方法測(cè)定結(jié)構(gòu)而提交的不同記錄,比較這些記錄的共同點(diǎn)與差異,往往會(huì)有對(duì)于這個(gè)結(jié)構(gòu)本身相當(dāng)重要的發(fā)現(xiàn)。另一方面,雖然蛋白質(zhì)結(jié)構(gòu)測(cè)定技術(shù)與 70 年代已不可同日而語(yǔ),但結(jié)構(gòu)的測(cè)定速度永遠(yuǎn)趕不上測(cè)序的速度,也就造成了 PDB 的記錄在 GenBank 和 UniProt 中的對(duì)應(yīng)序列記錄占序列總數(shù)的百分比反而越來(lái)越少。這就使得人們開(kāi)始考慮,是否能通過(guò)已知的結(jié)構(gòu)和序列,通過(guò)歸納某種方法,能夠根據(jù)測(cè)序結(jié)果推知未知蛋白的結(jié)構(gòu)?我們可以假設(shè)這個(gè)方法為 f, 已知序列為 x_0, 對(duì)應(yīng)的已知結(jié)構(gòu)為 y_0. 我們希望能從 y_0 = f(x_0) 中歸納出 f, 從而求出對(duì)任意 x 的 f(x),即對(duì)應(yīng)任意既有序列的結(jié)構(gòu)。從數(shù)學(xué)的角度看,這是一個(gè)非線性分類問(wèn)題;用計(jì)算機(jī)科學(xué)的語(yǔ)言來(lái)說(shuō),這是一個(gè)模式識(shí)別問(wèn)題;用人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的觀點(diǎn),這是一個(gè)分類器的學(xué)習(xí)問(wèn)題。客觀的說(shuō),直到今天,人們?nèi)匀粵](méi)有找到這樣一個(gè)精確的 f, 也沒(méi)能發(fā)明某種方法完全實(shí)現(xiàn) f 的功能,但迄今為止所有在數(shù)學(xué)、計(jì)算機(jī)及機(jī)器學(xué)習(xí)領(lǐng)域里的成果,都已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中有所嘗試,包括簡(jiǎn)單的非線性函數(shù),主成分分析 (Principal component analysis, PCA),模擬退火算法 (Simulated annealing),遺傳/進(jìn)化算法 (Genetic/evolutionary algorithm),神經(jīng)網(wǎng)絡(luò) (Artificial neural networks, ANNs),隨機(jī)概率論模型如隱 Markov 模型 (Hidden Markov models, HMMs),Bayesian 推斷網(wǎng)絡(luò) (Bayesian inference networks) 等。其他非學(xué)習(xí)手段,包括來(lái)自分子力學(xué)和動(dòng)力學(xué)的蛋白質(zhì)折疊模擬,以及對(duì)于構(gòu)象的立體幾何排列研究等,也被用來(lái)參與預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的研究。在如今的研究中,這些方法都是混合使用的,雖然如上所言,人們并沒(méi)有得出一個(gè)一攬子解決方案,但是在不斷嘗試各種方法的過(guò)程中,對(duì)蛋白質(zhì)從線性多肽到完整功能構(gòu)象的折疊過(guò)程,已經(jīng)有了越來(lái)越深的認(rèn)識(shí)。值得指出的是,來(lái)自于序列領(lǐng)域的知識(shí),如序列中的特征片段 (Motif) 識(shí)別,二級(jí)結(jié)構(gòu)元件預(yù)測(cè),以及更大的結(jié)構(gòu)域同源性的發(fā)現(xiàn),是進(jìn)行結(jié)構(gòu)研究的重要組成部分,也正是藉于此,傳統(tǒng)生物信息學(xué)和傳統(tǒng)計(jì)算生物學(xué)在 90 年代找到了結(jié)合點(diǎn),形成了不可割裂的一門學(xué)科,開(kāi)始向理論生物學(xué)發(fā)展。

2000 年,生物信息界最廣為人知的進(jìn)展即為人類基因組測(cè)序完成,23 條染色體共 3Gb 堿基對(duì)的序列。這是一項(xiàng)規(guī)模宏大的基礎(chǔ)工程,給今后的所有領(lǐng)域的生物研究產(chǎn)生了深遠(yuǎn)影響,但卻被當(dāng)時(shí)的非專業(yè)決策者和普通大眾過(guò)高得估計(jì)了其“市場(chǎng)價(jià)值”。因此,當(dāng)所謂的“生物科技泡沫”與“互聯(lián)網(wǎng)泡沫”都隨著 NASDAQ 重挫而消失殆盡時(shí),人們才開(kāi)始重新嚴(yán)肅、謹(jǐn)慎的審視基因組,序列和生物信息學(xué)。人類基因組計(jì)劃在生物研究上的重要貢獻(xiàn),除了 3Gb 的數(shù)據(jù)本身之外,更重要的是建立了一種以序列為基礎(chǔ)的研究方向和方法。從此之后,幾乎每一個(gè)生物學(xué)者都開(kāi)始習(xí)慣在基因庫(kù)中尋找序列上的同源信息以獲得有關(guān)自己研究對(duì)象的更多信息,或者干脆直接從序列開(kāi)始,做蛋白結(jié)構(gòu)和功能分析。隨著人們測(cè)完了這個(gè)生物界相對(duì)較大的基因組,測(cè)序技術(shù)本身也得到了非??斓陌l(fā)展,錢海戰(zhàn)術(shù)和人海戰(zhàn)術(shù)并用,在接下來(lái)的幾年內(nèi)使 GenBank 的數(shù)據(jù)水漲船高,至 05 年 8 月達(dá)到了 100Gb,實(shí)在不能不說(shuō)是一次卓有成效的“大躍進(jìn)”。核苷酸序列數(shù)據(jù)達(dá)到這個(gè)水平,也就從側(cè)面表明了,一個(gè)基因在基因庫(kù)中的豐度,已經(jīng)能在數(shù)據(jù)庫(kù)中初步的表達(dá)出來(lái)。搜索一些熱點(diǎn)基因,可以在庫(kù)中得到上百個(gè)同源結(jié)果,這為比較研究——也就是最簡(jiǎn)單的“找規(guī)律破譯密碼”邏輯——提供了足夠多相似而不相同的研究樣本。

當(dāng)然,測(cè)序得出的基于 EST 片段的基因組序列,其直接生物學(xué)價(jià)值是很小的,更重要的工作是基因注釋 (Gene annotation),其內(nèi)容就是將基因在大量的非基因序列中標(biāo)記出來(lái),并且正確分辨讀碼框 (Reading frame),內(nèi)含子 (intron) 與外顯子 (exon)。這又是一個(gè)復(fù)雜費(fèi)時(shí)的工作,所幸仍然有政府背景的錢海支持,人類基因組的注釋已經(jīng)基本完畢,完全手工精確注釋 (VEGA 項(xiàng)目, EBI, UK & NCBI, US) 也已經(jīng)在一些重要染色體(如 Chr 6, 重要的免疫球蛋白家族 HLA, IG, 原癌基因 p53 等都在此)上完成。而對(duì)于其他還未分到一杯羹的已測(cè)序物種基因組,人們用一些效果相當(dāng)不錯(cuò)的軟件包去做基因發(fā)現(xiàn),以及剪接位點(diǎn)預(yù)測(cè)等自動(dòng)化工作 (HMMER @ Ensembl, EBI, UK),也取得了十分有效的成果。值得一提的是,這些軟件包都是生物信息領(lǐng)域的重要成就;人們對(duì)算法性能提高的渴望,以及對(duì)學(xué)習(xí)算法精確率的狂熱,永遠(yuǎn)沒(méi)有止盡。遍覽最近五年的生物信息期刊 (Bioinformatics, Oxford Journals; BMC Bioinformatics, BioMedCentral),關(guān)于比對(duì)性能,學(xué)習(xí)模型,性能評(píng)測(cè)方法,訓(xùn)練集測(cè)試集選擇等等話題的討論實(shí)在是數(shù)不勝數(shù),使得這兩本雜志有時(shí)候看起來(lái)更像某種數(shù)學(xué)期刊;不過(guò),嚴(yán)肅的說(shuō),這也從側(cè)面體現(xiàn)了,數(shù)學(xué)理論已經(jīng)真正融入生物學(xué)研究中,并逐漸催化生物學(xué)從實(shí)驗(yàn)科學(xué)變成正規(guī),系統(tǒng)的自然科學(xué)。在自然科學(xué)里,化學(xué)和物理學(xué)已經(jīng)早先一個(gè)世紀(jì)完成了這種轉(zhuǎn)變,在數(shù)學(xué)上得到統(tǒng)一;而生物學(xué)中的數(shù)學(xué),除了種群生態(tài)學(xué)中的一些簡(jiǎn)單的模型,遺傳學(xué)中用于計(jì)算基因頻率的簡(jiǎn)單概率論,以及用于統(tǒng)計(jì)試驗(yàn)結(jié)果的檢驗(yàn)工具 (誤差,t-檢驗(yàn)等等)之外,一直是個(gè)空白,或者說(shuō)沒(méi)有深入到生物的本質(zhì)。而現(xiàn)在,基于對(duì)序列隨機(jī)模型的研究,我們可以一步一步接近以隨機(jī)過(guò)程為本源的生物學(xué)的數(shù)學(xué)核心。畢竟,有了數(shù)學(xué),一門科學(xué)才有了靈魂,才可以稱之為真正的科學(xué)。

關(guān)于 2000 年后計(jì)算生物學(xué)分支的發(fā)展,包括 Microarray 方面和蛋白質(zhì)結(jié)構(gòu)和相互作用方面的研究,以及系統(tǒng)生物學(xué)的發(fā)生,將在下回分解,謝謝大家收看,這次先講到這里。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
生物信息學(xué)的現(xiàn)狀與展望(The Current Status and The Prospect of Bioinformatics)
生物實(shí)驗(yàn)數(shù)據(jù)和計(jì)算技術(shù)
生物信息學(xué)的發(fā)展現(xiàn)狀和展望
生物信息學(xué)的打怪升級(jí)—初段小白必備
Nature子刊 | 適用于生物學(xué)研究人員的機(jī)器學(xué)習(xí)指南(上)
兩大頂級(jí)AI算法一起開(kāi)源!Nature、Science齊發(fā),雙廚狂喜
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服