將 ScienceAI 設(shè)為星標(biāo)
第一時間掌握
新鮮的 AI for Science 資訊
編輯 | 紫羅
進(jìn)化產(chǎn)生了多種功能蛋白,可以精確調(diào)節(jié)細(xì)胞過程。近年來出現(xiàn)了深度生成模型,旨在從這種多樣性中學(xué)習(xí),生成既有效又新穎的蛋白質(zhì),最終目標(biāo)是定制功能以解決當(dāng)今突出的挑戰(zhàn)。
當(dāng)涉及到在計(jì)算機(jī)上創(chuàng)造新的蛋白質(zhì)時,深度生成模型正成為越來越強(qiáng)大的工具。擴(kuò)散模型是一類生成模型,最近被證明可以生成生理上合理的蛋白質(zhì),與自然界中看到的任何實(shí)際蛋白質(zhì)不同,它可以在從頭蛋白質(zhì)設(shè)計(jì)中提供無與倫比的能力和控制。
然而,當(dāng)前最先進(jìn)的模型構(gòu)建蛋白質(zhì)結(jié)構(gòu),這嚴(yán)重限制了其訓(xùn)練數(shù)據(jù)的廣度,并將代限制在蛋白質(zhì)設(shè)計(jì)空間的微小且有偏差的部分。
微軟研究人員開發(fā)了 EvoDiff——一種通用擴(kuò)散框架,通過將進(jìn)化規(guī)模數(shù)據(jù)與擴(kuò)散模型的獨(dú)特調(diào)節(jié)能力相結(jié)合,可以在序列空間中創(chuàng)建可調(diào)節(jié)的蛋白質(zhì)。EvoDiff 可以使結(jié)構(gòu)合理的蛋白質(zhì)多樣化,涵蓋所有可能的序列和功能。EvoDiff 可以構(gòu)建基于結(jié)構(gòu)的模型無法訪問的蛋白質(zhì),例如那些具有無序部分的蛋白質(zhì),同時能夠?yàn)橛杏玫慕Y(jié)構(gòu)基序設(shè)計(jì)支架,這一事實(shí)證明了基于序列的公式的普遍性。
在蛋白質(zhì)序列進(jìn)化中,EvoDiff 是第一個展示擴(kuò)散生成模型功效的深度學(xué)習(xí)框架。
EvoDiff 的共同作者、微軟高級研究員 Ava Amini 表示:「如果有什么可以從 EvoDiff 中學(xué)到的,我認(rèn)為那就是,我們可以而且應(yīng)該通過序列進(jìn)行蛋白質(zhì)生成,因?yàn)槲覀兡軌驅(qū)崿F(xiàn)通用性、規(guī)?;湍K化。我們的擴(kuò)散框架使我們有能力做到這一點(diǎn),并控制我們?nèi)绾卧O(shè)計(jì)這些蛋白質(zhì)以滿足特定的功能目標(biāo)。」
EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我們設(shè)想 EvoDiff 將擴(kuò)展蛋白質(zhì)工程的能力,超越結(jié)構(gòu)-功能范式,轉(zhuǎn)向可編程、序列優(yōu)先的設(shè)計(jì),通過 EvoDiff,我們證明我們實(shí)際上可能不需要結(jié)構(gòu),而是『蛋白質(zhì)序列就是你所需要的』來可控地設(shè)計(jì)新蛋白質(zhì)。」
該研究以《Protein generation with evolutionary diffusion: sequence is all you need》為題,發(fā)布在 bioRxiv 預(yù)印平臺上。
GitHub 地址:https://github.com/microsoft/evodiff
論文鏈接:https://doi.org/10.1101/2023.09.11.556673
EvoDiff 框架的核心是一個包含 6.4 億個參數(shù)的模型,該模型根據(jù)來自所有不同物種和蛋白質(zhì)功能類別的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練模型的數(shù)據(jù)來源于用于序列比對的 OpenFold 數(shù)據(jù)集 UniRef50,UniProt 數(shù)據(jù)的子集,UniProt 聯(lián)盟維護(hù)的蛋白質(zhì)序列和功能信息數(shù)據(jù)庫。
Uniref50 是一個包含約 4200 萬個蛋白質(zhì)序列的數(shù)據(jù)集。MSA 來自 OpenFold 數(shù)據(jù)集,其中包括 16,000,000 個 UniClust30 集群和 401,381 個 MSA,涵蓋 140,000 個不同的 PDB 鏈。有關(guān) IDR 的信息來自反向同源 GitHub。
EvoDiff 主要特征如下:
EvoDiff 是一種新穎的生成建模系統(tǒng),用于僅從序列數(shù)據(jù)創(chuàng)建可編程蛋白質(zhì),該系統(tǒng)是通過將進(jìn)化規(guī)模數(shù)據(jù)集與擴(kuò)散模型相結(jié)合而開發(fā)的。其使用離散擴(kuò)散框架,其中正向過程通過改變其氨基酸特性來迭代地破壞蛋白質(zhì)序列,并且由神經(jīng)網(wǎng)絡(luò)參數(shù)化的學(xué)習(xí)反向過程利用自然框架來預(yù)測每次迭代時所做的變化。蛋白質(zhì)作為氨基酸語言上離散標(biāo)記的序列。
可以使用反向方法從頭開始創(chuàng)建蛋白質(zhì)序列。與蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)中傳統(tǒng)使用的連續(xù)擴(kuò)散公式相比,EvoDiff 中使用的離散擴(kuò)散公式在數(shù)學(xué)上取得了顯著的改進(jìn)。多重序列比對 (MSA) 突出顯示相關(guān)蛋白質(zhì)組的氨基酸序列的保守模式和變異,從而捕獲單個蛋白質(zhì)序列進(jìn)化規(guī)模數(shù)據(jù)集之外的進(jìn)化聯(lián)系。為了利用這種額外深度的進(jìn)化信息,他們構(gòu)建了在 MSA 上訓(xùn)練的離散擴(kuò)散模型,以產(chǎn)生新穎的 single lines。
為了說明其在可調(diào)蛋白質(zhì)設(shè)計(jì)方面的功效,研究人員在一系列生成活動的譜上檢查了序列和 MSA 模型(分別為 EvoDiff-Seq 和 EvoDiff-MSA)。
他們首先證明 EvoDiff-Seq 能夠可靠地產(chǎn)生高質(zhì)量、多樣化的蛋白質(zhì),準(zhǔn)確反映自然界蛋白質(zhì)的組成和功能。EvoDiff-MSA 通過比對具有相似但獨(dú)特進(jìn)化歷史的蛋白質(zhì)來引導(dǎo)新序列的開發(fā)。最后,他們表明 EvoDiff 可以可靠地生成具有 IDR 的蛋白質(zhì),直接克服基于結(jié)構(gòu)的生成模型的關(guān)鍵限制,并且可以通過利用基于擴(kuò)散的建??蚣艿恼{(diào)節(jié)功能,在沒有任何明確結(jié)構(gòu)信息的情況下生成功能結(jié)構(gòu)基序的支架。
為了生成具有基于序列限制條件調(diào)節(jié)的可能性的多樣化新蛋白質(zhì),研究人員提出了 EvoDiff,一種擴(kuò)散建模框架。通過挑戰(zhàn)基于結(jié)構(gòu)的蛋白質(zhì)設(shè)計(jì)范式,EvoDiff 可以通過從序列數(shù)據(jù)生成本質(zhì)上無序的區(qū)域和支架結(jié)構(gòu)基序,無條件地采樣結(jié)構(gòu)合理的蛋白質(zhì)多樣性。
通過引導(dǎo)進(jìn)行調(diào)節(jié),創(chuàng)建的序列可以迭代地調(diào)整以滿足所需的質(zhì)量,可以在未來的研究中添加到這些功能中。EvoDiff-D3PM 框架很適合通過指導(dǎo)進(jìn)行條件調(diào)節(jié),因?yàn)樾蛄兄忻總€殘基的身份都可以在每個解碼步驟中進(jìn)行編輯。
然而,研究人員觀察到,OADM 在無條件生成方面通常優(yōu)于 D3PM,這可能是因?yàn)?OADM 去噪任務(wù)比 D3PM 更容易學(xué)習(xí)。不幸的是,OADM 和其他現(xiàn)有的條件 LRAR 模型(如 ProGen)降低了指導(dǎo)的有效性。預(yù)計(jì)新的蛋白質(zhì)序列將通過調(diào)節(jié) EvoDiff-D3PM 的功能目標(biāo)(例如序列功能分類器描述的目標(biāo))來生成。
EvoDiff 的數(shù)據(jù)要求極低,這意味著它可以輕松適應(yīng)后續(xù)用途,而這只有通過基于結(jié)構(gòu)的方法才能實(shí)現(xiàn)。研究人員表明,EvoDiff 可以通過修復(fù)來創(chuàng)建 IDR,無需微調(diào),從而避免了基于結(jié)構(gòu)的預(yù)測和生成模型的經(jīng)典陷阱。