生成式 AI 被視為人工智能皇冠上一顆璀璨的“明珠”,已經(jīng)在多個(gè)領(lǐng)域表現(xiàn)出獨(dú)特的價(jià)值,從編程再到視頻、藝術(shù)、寫(xiě)作、游戲、數(shù)學(xué)計(jì)算到生物醫(yī)藥等等。
Nature Biotechnology 上的一篇社論文章指出,生成式 AI 正在生物醫(yī)學(xué)領(lǐng)域全速前進(jìn)。其中,以幾何深度學(xué)習(xí)和擴(kuò)散模型為基礎(chǔ)的生成式AI模型在生物制藥中已經(jīng)開(kāi)始走向成熟,相關(guān)模型在蛋白質(zhì)和抗體設(shè)計(jì)方向也取得了一些重要的進(jìn)展。
近日,麻省理工學(xué)院的研究人員開(kāi)發(fā)出了一種擴(kuò)散模型 FrameDiff,這是一種生成式深度學(xué)習(xí)工具,能夠生成自然界中不存在的新型蛋白質(zhì)結(jié)構(gòu)。在研究中,研究團(tuán)隊(duì)將 FrameDiff 應(yīng)用于蛋白質(zhì)主鏈生成,該模型可以生成多達(dá) 500 個(gè)氨基酸序列的蛋白質(zhì)主鏈,且無(wú)需依賴(lài)于預(yù)訓(xùn)練蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)網(wǎng)絡(luò)。相關(guān)研究已經(jīng)上傳到預(yù)印本平臺(tái) ArXiv 上。
(來(lái)源:ArXiv)
官方新聞稿指出,F(xiàn)rameDiff 能夠提高蛋白質(zhì)工程能力,有助于加快疫苗和藥物的研發(fā)進(jìn)程,改善基因治療水平等。
本文的第一作者是 Jason Yim,電子工程與計(jì)算機(jī)科學(xué)系和數(shù)據(jù)、系統(tǒng)與社會(huì)研究所的 Thomas Siebel 教授 Tommi Jaakkola 為這項(xiàng)研究提供了建議。Jason Yim 目前是 MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)博士二年級(jí)的學(xué)生,他曾在約翰霍普金斯大學(xué)獲得計(jì)算機(jī)科學(xué)和應(yīng)用數(shù)學(xué)學(xué)士學(xué)位,還曾擔(dān)任 DeepMind 的研究工程師。他的研究方向是開(kāi)發(fā)生物學(xué)和化學(xué)等科學(xué)領(lǐng)域的機(jī)器學(xué)習(xí)方法,將幾何深度學(xué)習(xí)、生成模型(擴(kuò)散和基于評(píng)分的模型)、離散優(yōu)化、黎曼流形等方法應(yīng)用于醫(yī)學(xué)成像、蛋白質(zhì)結(jié)構(gòu)建模、蛋白質(zhì)適應(yīng)性優(yōu)化以及從頭蛋白質(zhì)設(shè)計(jì)等。
Jason Yim 表示,在自然界中,蛋白質(zhì)設(shè)計(jì)是一個(gè)緩慢進(jìn)化的過(guò)程,需要數(shù)百萬(wàn)年的時(shí)間。我們的技術(shù)旨在為制造蛋白質(zhì)提供解決方案,其蛋白質(zhì)設(shè)計(jì)速度遠(yuǎn)快于自然界蛋白質(zhì)設(shè)計(jì)的速度。
參數(shù)少 4 倍,無(wú)需預(yù)訓(xùn)練,生成蛋白主鏈長(zhǎng)度可達(dá) 500 個(gè)氨基酸
蛋白質(zhì)具有復(fù)雜的結(jié)構(gòu),其由許多通過(guò)化學(xué)鍵連接的原子組成。其中決定蛋白質(zhì)三維結(jié)構(gòu)的最重要原子稱(chēng)為“主鏈”,這類(lèi)似于蛋白質(zhì)的“脊柱”。主鏈上,每個(gè)原子的三聯(lián)體都有相同的化學(xué)鍵和原子類(lèi)型模型。
新聞稿中指出,這些模型可以利用微分幾何和概率的思想來(lái)構(gòu)建機(jī)器學(xué)習(xí)算法,這也是框架(frames)的用武之地。從數(shù)學(xué)上講,這些三聯(lián)體可以建模為剛體,稱(chēng)之為“框架”,他們?cè)?3D 結(jié)構(gòu)中相應(yīng)的有位置和旋轉(zhuǎn)。
這些框架可以為每個(gè)三聯(lián)體提供足夠的信息,并描述其空間環(huán)境。然后,機(jī)器學(xué)習(xí)算法的任務(wù)是學(xué)習(xí)如何移動(dòng)每個(gè)框架來(lái)構(gòu)建蛋白質(zhì)主干,通過(guò)學(xué)習(xí)構(gòu)建現(xiàn)有蛋白質(zhì),有望泛化并構(gòu)建新型蛋白質(zhì)。
訓(xùn)練構(gòu)建蛋白質(zhì)的擴(kuò)散模型會(huì)涉及到注入噪聲(injecting noise),隨機(jī)移動(dòng)所有的框架,模糊原始蛋白質(zhì)的外觀。這種算法的工作是移動(dòng)和旋轉(zhuǎn)每一個(gè)框架,直到看起來(lái)像原始蛋白質(zhì)。雖然很簡(jiǎn)單,但框架上進(jìn)行擴(kuò)散需要黎曼流形上的隨機(jī)微積分技術(shù)。
RF 擴(kuò)散(RoseTTAFold Diffusion,RFdiffusion)是一種具有代表性的擴(kuò)散模型,這是結(jié)合結(jié)果預(yù)測(cè)網(wǎng)絡(luò)和生成擴(kuò)散模型的蛋白質(zhì)設(shè)計(jì)方法,由David Baker 團(tuán)隊(duì)開(kāi)發(fā)。這一模型將 RosettaFold2 與 SE(3)擴(kuò)散相結(jié)合,基于 AlphaFold2 和 RoseTTAFold 等結(jié)構(gòu)預(yù)測(cè)方法對(duì)蛋白質(zhì)結(jié)果進(jìn)行深入理解,并優(yōu)化改進(jìn)蛋白質(zhì)設(shè)計(jì)擴(kuò)散模型,最終開(kāi)發(fā)出了一種生成全新蛋白質(zhì)的引導(dǎo)擴(kuò)散模型(guided diffusion model)。這種 RF 擴(kuò)散方法能夠預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),并提供蛋白質(zhì)各部分如何組合在一起的信息,然后使用這些信息指導(dǎo)整個(gè)蛋白質(zhì)生成過(guò)程。
受此啟發(fā),SE(3)擴(kuò)散通過(guò)將框架整合到擴(kuò)散模型中,以進(jìn)一步采用框架的概念。并利用 SE(3)擴(kuò)散學(xué)習(xí)概率分布,概率分布會(huì)將每個(gè)框架的平移和旋轉(zhuǎn)分量連接起來(lái)。SE(3)擴(kuò)散已被用于生成和驗(yàn)證新型蛋白質(zhì)。
研究團(tuán)隊(duì)以 SE(3)不變擴(kuò)散模型的理論基礎(chǔ)建立了一個(gè)新框架 FrameDiff,這是一個(gè)基于中心 Se (3) N 隨機(jī)過(guò)程建??蚣懿蓸拥鞍踪|(zhì)主鏈的擴(kuò)散模型,也是一個(gè)用于學(xué)習(xí)多框架的 SE(3)等變分?jǐn)?shù)。論文中這樣描述道,研究人員以去噪分?jǐn)?shù)匹配(DSM)訓(xùn)練的形式描述了李群尤其是 S O(3)上布朗運(yùn)動(dòng)的分布,并定義了 S E (3) N 上允許分離平移和旋轉(zhuǎn)的前向過(guò)程。
布朗運(yùn)動(dòng)(英語(yǔ):Brownian motion)是微小粒子或者顆粒在流體中做的無(wú)規(guī)則運(yùn)動(dòng)。布朗運(yùn)動(dòng)過(guò)程是一種正態(tài)分布的獨(dú)立增量連續(xù)隨機(jī)過(guò)程。
▲圖 | 使用 FrameDiff 生成蛋白質(zhì)結(jié)構(gòu)(來(lái)源:蛋白質(zhì)設(shè)計(jì)研究所)
研究人員指出,該模型遵循了正確的 DSM 訓(xùn)練,使用的參數(shù)比 RFdiffusion 少了 4 倍,并且無(wú)需進(jìn)行預(yù)訓(xùn)練。
接下來(lái),該研究團(tuán)隊(duì)進(jìn)行了蛋白質(zhì)單體試驗(yàn),結(jié)果顯示 FrameDiff 可以設(shè)計(jì)和生成多種蛋白質(zhì)主鏈,長(zhǎng)度可達(dá) 500 個(gè)氨基酸序列,且可以生成新型蛋白質(zhì)。
研究人員進(jìn)一步指出,F(xiàn)rameDiff 模型設(shè)計(jì)蛋白質(zhì)主鏈的成功率僅次于 RFdiffusion。該研究將推動(dòng) SE(3)擴(kuò)散方法的進(jìn)一步發(fā)展,SE(3)是用于蛋白質(zhì)和其他領(lǐng)域 RFdiffusion 和 FrameDiff 的基礎(chǔ)。
計(jì)劃提高模型通用性
上文提到的 RFdiffusion 模型通過(guò)結(jié)合擴(kuò)散模型和蛋白結(jié)構(gòu)預(yù)測(cè)工具,解決了蛋白質(zhì)設(shè)計(jì)中的關(guān)鍵技術(shù)問(wèn)題,包括開(kāi)發(fā)用于加速疫苗設(shè)計(jì)的高度特異性蛋白質(zhì)結(jié)合劑、用于基因遞送的蛋白質(zhì)工程以及用于精確設(shè)計(jì)酶的基序支架。
作為“升級(jí)版”RFdiffusion,F(xiàn)rameDiff 在一定程度上達(dá)到甚至超越了 RFdiffusion 的功能。據(jù)研究人員透露,該模型未來(lái)的一個(gè)努力方向是提高通用性,另一個(gè)方面是將模型推廣到多種藥物分子形式中,包括 DNA 和小分子。
(來(lái)源:MIT)
研究團(tuán)隊(duì)認(rèn)為,如果通過(guò)使用更多數(shù)據(jù)量訓(xùn)練 FrameDiff 并增強(qiáng)其優(yōu)化過(guò)程,F(xiàn)rameDiff 可以具有與 RFdiffusion 同等的設(shè)計(jì)能力,生成蛋白質(zhì)基礎(chǔ)結(jié)構(gòu)。同時(shí)也會(huì)保留 FrameDiff 操作的簡(jiǎn)單性。
對(duì)此,哈佛大學(xué)計(jì)算生物學(xué)家 Sergey Ovchinnikov 表示,放棄 FrameDiff 中的預(yù)訓(xùn)練結(jié)構(gòu)預(yù)測(cè)模型,為快速生成較長(zhǎng)結(jié)構(gòu)提供了更多可能性。論文中的創(chuàng)新方法為克服當(dāng)前結(jié)構(gòu)預(yù)測(cè)模型的局限性邁出了重要一步。
“就生成蛋白質(zhì)結(jié)構(gòu)的能力而言,深度學(xué)習(xí)模型的主要目的是開(kāi)發(fā)出更多增強(qiáng)功能的能力,例如設(shè)計(jì)出更好的結(jié)合劑。這意味著工程蛋白質(zhì)可以更特異性、有效附著到其他分子上,有望為靶向藥物遞送和相關(guān)生物技術(shù)帶來(lái)廣泛影響,可能促進(jìn)開(kāi)發(fā)出更高效的生物傳感器;另一方面也會(huì)為生物醫(yī)藥開(kāi)發(fā)帶來(lái)影響,促進(jìn)領(lǐng)域內(nèi)開(kāi)發(fā)出更有效的抗體、用于基因治療的納米顆粒。”Jason Yim 說(shuō)。
免責(zé)聲明:本文旨在傳遞生物醫(yī)藥最新訊息,不代表平臺(tái)立場(chǎng),不構(gòu)成任何投資意見(jiàn)和建議,以官方/公司公告為準(zhǔn)。本文也不是治療方案推薦,如需獲得治療方案指導(dǎo),請(qǐng)前往正規(guī)醫(yī)院就診。
聯(lián)系客服