追蹤人工智能產(chǎn)品和技術(shù)新趨勢(shì),我們只專注報(bào)道AI5小時(shí)前
編輯部 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
喜大普奔!今天一波Nature、Science齊發(fā)文,可把學(xué)術(shù)圈的嗑鹽人們高興壞了。
一邊是“AI界年度十大突破”AlphaFold2終于終于開源,登上Nature。
另一邊Science又出報(bào)道:華盛頓大學(xué)竟然還搞出了一個(gè)比AlphaFold2更快更輕便的算法,只需要一個(gè)英偉達(dá)RTX2080 GPU,10分鐘就能算出蛋白質(zhì)結(jié)構(gòu)!
要知道,當(dāng)年AlphaFold2橫空出世,那是真·沸騰了學(xué)術(shù)圈。
不僅谷歌CEO皮猜、馬斯克、李飛飛等大V紛紛點(diǎn)贊,連馬普所的演化生物研究所所長Andrei Lupas都直言:它會(huì)改變一切。
結(jié)構(gòu)生物學(xué)家Petr Leiman感嘆,我用價(jià)值一千萬美元的電鏡努力地解了好幾年,Alphafold2竟然一下就算出來了。
更是有生物學(xué)網(wǎng)友表示絕望,感覺專業(yè)“前途渺?!保?/p>
而今天這一波Nature、Science神仙打架,再次點(diǎn)燃話題度。
讓學(xué)界狂熱的Alphafold2
先說被頂刊爭相報(bào)道的Alphafold2,它作為一個(gè)AI模型,為何引起各界狂熱?
因?yàn)樗怀鰜?,就解決了生物學(xué)界最棘手的問題之一。這個(gè)問題于1972年被克里斯蒂安·安芬森提出,它的驗(yàn)證曾經(jīng)困擾科學(xué)家50年:
給定一個(gè)氨基酸序列,理論上就能預(yù)測(cè)出蛋白質(zhì)的3D結(jié)構(gòu)。
蛋白質(zhì)由氨基酸序列組成,但真正決定蛋白質(zhì)作用的,是它的3D結(jié)構(gòu),也就是氨基酸序列的折疊方式。
為了驗(yàn)證這個(gè)理論,科學(xué)家們嘗試了各種手段,但在CASP14(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽)中,準(zhǔn)確性也只達(dá)到40分左右(滿分100)。
直到去年12月,Alphafold2出現(xiàn),將這一準(zhǔn)確性直接拔高到了92.4/100,和蛋白質(zhì)真實(shí)結(jié)構(gòu)之間只差一個(gè)原子的寬度,真正解決了蛋白質(zhì)折疊的問題。
Alphafold2于當(dāng)年入選Science年度十大突破,被稱作結(jié)構(gòu)生物學(xué)“革命性”的突破、蛋白質(zhì)研究領(lǐng)域的里程碑。
它的出現(xiàn),能更好地預(yù)判蛋白質(zhì)與分子結(jié)合的概率,從而極大地加速新藥研發(fā)的效率。
今天,Alphafold2的開源,又進(jìn)一步在AI和生物學(xué)界激起了一大波浪。
谷歌CEO皮猜很高興:
亦有生物學(xué)博士表示:未來已來!
來自UC伯克利AI實(shí)驗(yàn)室的博士Roshan Rao在看過后表示,這份代碼看起來不僅容易使用,而且文檔也非常完善。
現(xiàn)在,是時(shí)候借著這份開源算法,弄清Alphafold2的魔術(shù)是怎么變的了。
AlphaFold2詳細(xì)信息公開
研究人員強(qiáng)調(diào),這是一個(gè)完全不同于AlphaFold的新模型。
2018年的AlphaFold使用的神經(jīng)網(wǎng)絡(luò)是類似ResNet的殘差卷積網(wǎng)絡(luò),到了AlphaFold2則借鑒了AI研究中最近新興起的Transformer架構(gòu)。
Transformer使用注意力機(jī)制興起于NLP領(lǐng)域,用于處理一連串的文本序列。
而氨基酸序列正是和文本類似的數(shù)據(jù)結(jié)構(gòu),AlphaFold2利用多序列比對(duì),把蛋白質(zhì)的結(jié)構(gòu)和生物信息整合到了深度學(xué)習(xí)算法中。
AlphaFold2用初始氨基酸序列與同源序列進(jìn)行比對(duì),直接預(yù)測(cè)蛋白質(zhì)所有重原子的三維坐標(biāo)。
從模型圖中可以看到,輸入初始氨基酸序列后,蛋白質(zhì)的基因信息和結(jié)構(gòu)信息會(huì)在數(shù)據(jù)庫中進(jìn)行比對(duì)。
多序列比對(duì)的目標(biāo)是使參與比對(duì)的序列中有盡可能多的序列具有相同的堿基,這樣可以推斷出它們?cè)诮Y(jié)構(gòu)和功能上的相似關(guān)系。
比對(duì)后的兩組信息會(huì)組成一個(gè)48block的Evoformer塊,然后得到較為相似的比對(duì)序列。
比對(duì)序列進(jìn)一步組合8 blocks的結(jié)構(gòu)模型,從而直接構(gòu)建出蛋白質(zhì)的3D結(jié)構(gòu)。
最后兩步過程還會(huì)進(jìn)行3次循環(huán),可以使預(yù)測(cè)更加準(zhǔn)確。
△如何用三維坐標(biāo)確定結(jié)構(gòu)
還有更快、成本更低的算法?
AlphaFold2首次公布的時(shí)候并沒有透露太多技術(shù)細(xì)節(jié)。
在華盛頓大學(xué),同樣致力于蛋白質(zhì)領(lǐng)域的David Baker一度陷入失落:
如果有人已經(jīng)解決了你正在研究的問題,但沒有透露他們是如何解決的,你該如何繼續(xù)研究?
不過他馬上重整旗鼓,帶領(lǐng)團(tuán)隊(duì)嘗試能不能復(fù)現(xiàn)AlphaFold2的成功。
幾個(gè)月后,Baker團(tuán)隊(duì)的成果不僅在準(zhǔn)確度上和AlphaFold2不相上下,還在計(jì)算速度和算力需求上實(shí)現(xiàn)了超越。
就在AlphaFold2開源論文登上Nature的同一天,Baker團(tuán)隊(duì)的RoseTTAFold也登上Science。
RoseTTAFold只需要一塊RTX2080顯卡,就能在10分鐘左右計(jì)算出400個(gè)氨基酸殘基以內(nèi)的蛋白質(zhì)結(jié)構(gòu)。
這樣的速度,意味著什么?
那就是研究蛋白質(zhì)的科學(xué)家不用再排隊(duì)申請(qǐng)超算資源了,小型團(tuán)隊(duì)和個(gè)人研究者只需要一臺(tái)普通的個(gè)人電腦就能輕松展開研究。
RoseTTAFold的秘訣在于采用了3軌注意力機(jī)制,分別關(guān)注蛋白質(zhì)的一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)。
再通過在三者之間加上多處連接,使整個(gè)神經(jīng)網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)3個(gè)維度層次的信息。
考慮到現(xiàn)在市場上顯卡不太好買,Baker團(tuán)隊(duì)還貼心的搭建了公共服務(wù)器,任何人都可以提交蛋白質(zhì)序列并預(yù)測(cè)結(jié)構(gòu)。
自服務(wù)器建立以來,已經(jīng)處理了來自全世界研究者提交的幾千個(gè)蛋白質(zhì)序列。
這還沒完,團(tuán)隊(duì)發(fā)現(xiàn)如果同時(shí)輸入多個(gè)氨基酸序列,RoseTTAFold還可以預(yù)測(cè)出蛋白質(zhì)復(fù)合體的結(jié)構(gòu)模型。
對(duì)于多個(gè)蛋白質(zhì)組成的復(fù)合體,RoseTTAFold的實(shí)驗(yàn)結(jié)果是在24GB顯存的英偉達(dá)Titan RTX上計(jì)算30分鐘左右。
現(xiàn)在整個(gè)網(wǎng)絡(luò)是用單個(gè)氨基酸序列訓(xùn)練的,團(tuán)隊(duì)下一步計(jì)劃用多序列重新訓(xùn)練,在蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)上還可能有提升空間。
正如Baker所說:
我們的成果可以幫助整個(gè)科學(xué)界,為生物學(xué)研究加速。
Alphafold2開源地址:
https://github.com/deepmind/alphafold
RoseTTAFold開源地址:
https://github.com/RosettaCommons/RoseTTAFold
相關(guān)論文:
Alphafold2:https://www.nature.com/articles/s41586-021-03819-2
RoseTTAFold:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754
參考鏈接:
[1]https://techcrunch.com/2021/07/15/researchers-match-deepminds-alphafold2-protein-folding-power-with-faster-freely-available-model/
[2]https://www.nature.com/articles/d41586-021-01968-y
聯(lián)系客服