DeepMind去年公布了生物學界的AlphaGo——AlphaFold,只要知道蛋白質(zhì)的氨基酸序列,就可以預測蛋白質(zhì)分子的三維折疊結構。
△AlphaFold預測蛋白質(zhì)結構
現(xiàn)在MIT把AI的預測能力又推進了一步,直接通過氨基酸序列預測蛋白質(zhì)分子的生物學功能,跳過AlphaFold預測蛋白質(zhì)立體結構的步驟。
他們的論文《Learning protein sequence embeddings using information from structure》將在今年5月的ICLR學術會議上公布。
研究人員先讓模型學習一些特定蛋白質(zhì)的功能,將蛋白質(zhì)結構編碼成表示,用不同蛋白質(zhì)結構相似性來監(jiān)督模型。
他們根據(jù)蛋白質(zhì)結構分類數(shù)據(jù)庫(SCOP),對數(shù)千各類別、大約22,000種蛋白質(zhì)進行模型訓練。然后,將蛋白質(zhì)結構與氨基酸序列編碼成嵌入(embedding)這種數(shù)字表示,隨機組對送入模型中。
這種嵌入與NLP中的上下文表示類似,兩種嵌入越相似,單詞出現(xiàn)在同一個句子中的概率就越大。
像單詞對語義的影響一樣,氨基酸是蛋白質(zhì)的“單詞”,蛋白質(zhì)就是整個“句子”,嵌入包含著每個氨基酸序列與另一個氨基酸序列的相似性信息,機器學習模型可以根據(jù)嵌入預測每個氨基酸對整個蛋白質(zhì)功能的影響。
而且該模型還能預測蛋白質(zhì)的接觸圖(contact map),即每個氨基酸與其他氨基酸之間的距離,與來自SCOP已知的接觸圖進行比較。
這有助于模型更好地了解氨基酸在蛋白質(zhì)結構中的確切位置,從而進一步預測每種氨基酸對功能的影響。
總的來說,對于某個氨基酸序列,該模型將為3D結構中的每個氨基酸位置產(chǎn)生一個嵌入表示。機器學習模型根據(jù)這些嵌入,基于接觸圖準確預測每個氨基酸的功能。
研究人員使用該模型預測哪些蛋白質(zhì)可以通過細胞膜,所得結果的準確性已經(jīng)超過之前最先進的模型。
蛋白質(zhì)是氨基酸通過肽鍵組成的線性鏈,卻能折疊成極其復雜的三維結構,其具體的結構取決于氨基酸序列和它們之間的物理相互作用。而這種結構又決定了蛋白質(zhì)的生物學功能。
盡管人類已經(jīng)研究了幾十年蛋白質(zhì),發(fā)明了很多探測手段,但是真正能準確測量出結構的蛋白質(zhì)只有很小一部分,已經(jīng)的幾百萬種蛋白質(zhì)中,我們只知道其中幾萬個的結構,研究每個結構都需要花費數(shù)萬美元。
過去我們需要知道蛋白質(zhì)的結構才能研究它的功能,MIT希望利用這項技術讓預測蛋白質(zhì)結構的研究邊緣化,即使只知道氨基酸序列也能給出蛋白質(zhì)的功能。
所幸的是,知道蛋白質(zhì)的氨基酸序列是一件相對比較容易的事情,我們只要給DNA分子測序就能得到。
掌握了蛋白質(zhì)的功能,我們就能知道它會和藥物發(fā)生怎樣的反應,幫助我們進行藥物研發(fā)。
此外,某些基因突變會改變蛋白質(zhì)的結構,這項工作還可以用于基因組學,來檢測破壞蛋白質(zhì)結構的有害突變。
論文地址:
https://arxiv.org/abs/1902.08661
開源代碼與數(shù)據(jù)集:
https://github.com/tbepler/protein-sequence-embedding-iclr2019
作者系網(wǎng)易新聞·網(wǎng)易號“各有態(tài)度”簽約作者
— 完 —