国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Nat. Biotechnol. | 用機(jī)器學(xué)習(xí)預(yù)測(cè)多肽質(zhì)譜庫(kù)
userphoto

2022.09.11 韓國(guó)

關(guān)注

王建民

本文介紹Max-Planck生物化學(xué)研究所計(jì)算系統(tǒng)生物化學(xué)研究組的Jürgen Cox近期發(fā)表在Nature Biotechnology的綜述Prediction of peptide mass spectral libraries with machine learning。最近開發(fā)的機(jī)器學(xué)習(xí)方法用于識(shí)別復(fù)雜的質(zhì)譜數(shù)據(jù)中的肽,是蛋白質(zhì)組學(xué)的一個(gè)重大突破。長(zhǎng)期以來的多肽識(shí)別方法,如搜索引擎和實(shí)驗(yàn)光譜庫(kù),正在被深度學(xué)習(xí)模型所取代,這些模型可以根據(jù)多肽的氨基酸序列來預(yù)測(cè)其碎片光譜。這些新方法,包括遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),使用預(yù)測(cè)的計(jì)算譜庫(kù)而不是實(shí)驗(yàn)譜庫(kù),在分析蛋白質(zhì)組學(xué)數(shù)據(jù)時(shí)達(dá)到更高的靈敏度或特異性。機(jī)器學(xué)習(xí)正在激發(fā)涉及大型搜索空間的應(yīng)用,如免疫肽組學(xué)和蛋白質(zhì)基因組學(xué)。該領(lǐng)域目前的挑戰(zhàn)包括預(yù)測(cè)具有翻譯后修飾的多肽和交聯(lián)的多肽對(duì)的光譜。將基于機(jī)器學(xué)習(xí)的光譜預(yù)測(cè)滲透到搜索引擎中,以及針對(duì)不同肽類和測(cè)量條件的以光譜為中心的數(shù)據(jù)獨(dú)立采集工作流程,將在未來幾年繼續(xù)推動(dòng)蛋白質(zhì)組學(xué)應(yīng)用的靈敏度和動(dòng)態(tài)范圍。


??

“鳥槍法”蛋白質(zhì)組學(xué)(shotgun proteomics)是一種識(shí)別和量化目標(biāo)樣品中蛋白質(zhì)的技術(shù)。該方法包括兩個(gè)主要步驟。首先,蛋白質(zhì)被蛋白酶消化成肽,其次,肽在質(zhì)譜儀中被片段化,從而產(chǎn)生片段化光譜。由于肽的寡聚結(jié)構(gòu)和主鏈中鍵斷裂的優(yōu)勢(shì),碎片光譜顯示出可用于確定其氨基酸序列和氨基酸共價(jià)修飾的規(guī)律性。因此,與缺乏重復(fù)結(jié)構(gòu)的分子相比,肽譜的解釋有些不同。通過了解碎片化的物理方法——例如碰撞誘導(dǎo)解離、高能碰撞解離 (HCD) 或電子轉(zhuǎn)移解離, 可以很容易地從序列中計(jì)算出主要肽片段的質(zhì)量。然而,預(yù)測(cè)光譜中碎片峰的相對(duì)強(qiáng)度,或者在某些情況下它們?cè)诠庾V中的缺失,這都是由量子化學(xué)決定的,這并非易事。傳統(tǒng)上在“鳥槍法”蛋白質(zhì)組學(xué)中用于識(shí)別肽的肽搜索引擎通常會(huì)忽略超出簡(jiǎn)化規(guī)則的強(qiáng)度信息。盡管這些工具已成功應(yīng)用多年,但強(qiáng)度模式攜帶的信息可用于提高肽識(shí)別過程的靈敏度和特異性。

利用強(qiáng)度信息的一種方法是直接從先前測(cè)量的光譜中組裝庫(kù),并將它們應(yīng)用于感興趣的樣品的分析。這種方法的優(yōu)點(diǎn)是對(duì)光譜的內(nèi)容是無假設(shè)的。原則上,它可以容納不屬于任何標(biāo)準(zhǔn)碎片離子系列的非標(biāo)準(zhǔn)峰,目前大多數(shù)預(yù)測(cè)方法都沒有考慮這些峰。缺點(diǎn)是樣品中沒有獲得譜庫(kù)光譜的任何新肽都會(huì)在分析中丟失。然而,另一種方法也容易在分析中丟失新肽,即獲取項(xiàng)目特定的庫(kù)。生成這樣的庫(kù)為項(xiàng)目增加了大量的測(cè)量工作,并且通常僅限于提高靈敏度的好處遠(yuǎn)遠(yuǎn)超過肽空間受庫(kù)內(nèi)容限制的缺點(diǎn)的應(yīng)用。

如果可以從氨基酸序列中快速準(zhǔn)確地預(yù)測(cè)碎片光譜中的峰值強(qiáng)度,無論是檢測(cè)新肽的失敗還是生成項(xiàng)目特定庫(kù)的額外測(cè)量工作都將得到克服。這樣做的第一次嘗試可以追溯到近 20 年前,使用決策樹或單個(gè)隱藏層神經(jīng)網(wǎng)絡(luò)。最近的一項(xiàng)突破中,深度學(xué)習(xí)方法已經(jīng)開始以接近實(shí)驗(yàn)的精度從氨基酸序列中預(yù)測(cè)肽片段譜。本綜述側(cè)重于準(zhǔn)確預(yù)測(cè)光譜庫(kù)的機(jī)器學(xué)習(xí)方法。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法

碎片譜預(yù)測(cè)是一個(gè)監(jiān)督學(xué)習(xí)問題,其中譜是從肽序列預(yù)測(cè)的,模型在肽序列集和元數(shù)據(jù)作為輸入變量和片段強(qiáng)度作為輸出變量。有多種回歸方法可用,包括基于樹的模型,如隨機(jī)森林和 XGBoost、支持向量回歸和神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)因其優(yōu)越的性能而經(jīng)常用于頻譜預(yù)測(cè)。

循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)已證明對(duì)碎片譜預(yù)測(cè)非常有用。它們旨在處理序列數(shù)據(jù),并且可以應(yīng)用于可變長(zhǎng)度的序列,這使得它們特別適用于肽。雙向 RNN 結(jié)合了兩個(gè) RNN,一個(gè)用于序列中的每個(gè)方向,以考慮到某個(gè)鍵斷裂的頻率取決于該鍵之前和之后的序列上下文。對(duì)于某些肽鍵,它們的斷裂傾向主要由局部分子環(huán)境決定,而對(duì)于其他更遠(yuǎn)的序列特性是相關(guān)的。門控 RNN 已被開發(fā)用于處理序列中的多個(gè)因果距離尺度。門控 RNN 的兩種主要類型,長(zhǎng)短期記憶 (LSTM) 和門控循環(huán)單元 (GRU) 都已應(yīng)用于碎片譜預(yù)測(cè)。此外,傳統(tǒng)上用于圖像分類和識(shí)別任務(wù)的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 已應(yīng)用于光譜。

經(jīng)過訓(xùn)練的遷移學(xué)習(xí)模型的一部分在具有不同但相關(guān)任務(wù)的模型中重復(fù)使用,然后通過較少數(shù)量的訓(xùn)練實(shí)例進(jìn)行微調(diào),如果模型是從頭開始訓(xùn)練的。這種技術(shù)可用于針對(duì)特定技術(shù)或生物環(huán)境預(yù)測(cè)光譜的應(yīng)用,為此人們可以從更通用的環(huán)境中借用訓(xùn)練模型的一部分。例如,在未修飾肽的大型數(shù)據(jù)集上訓(xùn)練的模型可以部分轉(zhuǎn)移到攜帶翻譯后修飾 (PTM) 的肽模型,該模型隨后在較小的數(shù)據(jù)集上進(jìn)行訓(xùn)練。最后,有趣的是,諸如形狀加性解釋 (SHAP) 和積分梯度之類的計(jì)算方法可用于將輸入特征范圍歸因于特定實(shí)例的預(yù)測(cè)結(jié)果。例如,在圖像識(shí)別中,這些方法可以指示圖像中對(duì)某個(gè)決定最負(fù)責(zé)的像素范圍。類似地,在光譜中,它們可以提供關(guān)于最有助于確定碎片離子強(qiáng)度的序列區(qū)域的信息。

光譜數(shù)據(jù)

碎片光譜可以通過兩種方式預(yù)測(cè),或者通過關(guān)注預(yù)定義的離子系列類型,其質(zhì)量可直接從輸入序列計(jì)算并且其強(qiáng)度將被預(yù)測(cè),或者通過在不參考離子系列注釋的情況下預(yù)測(cè)全光譜。訓(xùn)練預(yù)測(cè)模型的關(guān)鍵是輸入和輸出已知的示例數(shù)據(jù)集。這樣的基本事實(shí)數(shù)據(jù)集可以從具有定義序列的合成肽中獲得,然后進(jìn)行質(zhì)譜分析。這種方法的優(yōu)點(diǎn)是肽混合物的整個(gè)組成是已知的。然而,從這些測(cè)量中獲得的光譜并不能反映真實(shí)樣品的組成,因?yàn)樗鼈儍H涵蓋有限的一組肽,合成和分析需要大量的努力。更常見的是利用現(xiàn)有的 DDA 數(shù)據(jù)集,這些數(shù)據(jù)集存放在公共原始數(shù)據(jù)存儲(chǔ)庫(kù)中。這種情況下,可以確保肽被正確識(shí)別到可選擇的錯(cuò)誤發(fā)現(xiàn)率 (FDR),因此可以作為準(zhǔn)基本事實(shí)??蛇x地,可以應(yīng)用關(guān)于附加質(zhì)量參數(shù)的進(jìn)一步閾值,例如搜索引擎分?jǐn)?shù)。對(duì)于預(yù)測(cè)全譜的方法,重新分析復(fù)雜的蛋白質(zhì)組學(xué)數(shù)據(jù)以訓(xùn)練模型具有復(fù)雜性,即峰可能是由共同片段化的肽引起的,這要么必須通過光譜聚類來減少,要么通過測(cè)量閾值來減少。否則,機(jī)器學(xué)習(xí)模型將具有識(shí)別由于共同碎片而存在的特征的額外任務(wù)。相比之下,在僅預(yù)測(cè)離子系列強(qiáng)度的方法中,即使在復(fù)雜的蛋白質(zhì)組樣本中,預(yù)計(jì)共同片段化肽的污染影響也很小。

為了確定機(jī)器學(xué)習(xí)模型的性能,需要將可用數(shù)據(jù)拆分為訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集。訓(xùn)練和驗(yàn)證集用于模型構(gòu)建,而測(cè)試集完全排除在此過程之外,但隨后用于以無偏見的方式評(píng)估模型在預(yù)測(cè)準(zhǔn)確性方面的性能。對(duì)于模型構(gòu)建,訓(xùn)練數(shù)據(jù)集用于確定模型的參數(shù),驗(yàn)證集用于調(diào)整模型的超參數(shù)并避免在此過程中過度擬合。為了判斷預(yù)測(cè)的準(zhǔn)確性,需要一種光譜相似性度量,它可以量化預(yù)測(cè)光譜與實(shí)驗(yàn)光譜的接近程度。計(jì)算測(cè)試集元素上所有預(yù)測(cè)的相似性度量會(huì)產(chǎn)生一個(gè)直方圖,該直方圖可用于計(jì)算整個(gè)預(yù)測(cè)群體的平均準(zhǔn)確度、置信區(qū)間或箱線圖。在可用數(shù)據(jù)有限的情況下,可以使用交叉驗(yàn)證來增加準(zhǔn)確度直方圖的統(tǒng)計(jì)數(shù)據(jù)。

模型的預(yù)測(cè)性能取決于可用訓(xùn)練實(shí)例的數(shù)量。如果訓(xùn)練集太小,該方法的全部潛力可能還沒有達(dá)到,需要獲得更多實(shí)例才能達(dá)到漸近性能的平臺(tái)期。實(shí)踐中重要的是模型如何在有限數(shù)量的訓(xùn)練實(shí)例下執(zhí)行,因?yàn)樵诮o定的技術(shù)或生物環(huán)境中可用光譜的數(shù)量可能會(huì)受到限制。對(duì)于相同的肽段和相同的元數(shù)據(jù)參數(shù)值,串聯(lián)質(zhì)譜 (MS/MS) 光譜的相似技術(shù)復(fù)制的預(yù)測(cè)準(zhǔn)確性存在實(shí)際限制。

離子序列強(qiáng)度預(yù)測(cè)

大多數(shù)流行的離子序列強(qiáng)度預(yù)測(cè)深度學(xué)習(xí)模型都使用 RNN,這pDeep、DeepMass:Prism、Prosit 和 Guan 等人中已經(jīng)實(shí)現(xiàn),但也使用了 CNN。Prosit 基于 GRU,而其他基于 RNN 的模型使用 LSTM 層。例如,DeepMass:Prism 的架構(gòu)使用編碼器-解碼器架構(gòu),該架構(gòu)是在機(jī)器翻譯的背景下開發(fā)的。編碼器部分將可變長(zhǎng)度的肽序列作為輸入,并將其轉(zhuǎn)換為固定長(zhǎng)度的表示,這是通過三個(gè) LSTM 層實(shí)現(xiàn)的。與元數(shù)據(jù)參數(shù)的值一起,由多層感知器組成的解碼器生成離子序列強(qiáng)度的“轉(zhuǎn)換”序列。Prosit 也遵循編碼器-解碼器架構(gòu),但其結(jié)構(gòu)略有不同,因?yàn)樗鼘w一化的碰撞能量作為額外的元數(shù)據(jù)參數(shù)輸入。

傳統(tǒng)的機(jī)器學(xué)習(xí)也已應(yīng)用于離子序列強(qiáng)度預(yù)測(cè)。這些方法可以細(xì)分為固定長(zhǎng)度和基于窗口的方法。前者中,在 MS2PIP 中實(shí)現(xiàn),為每個(gè)可能的肽長(zhǎng)度訓(xùn)練一個(gè)單獨(dú)的模型。因此,不同長(zhǎng)度的肽沒有協(xié)同作用,就像 RNN 的情況一樣。由于可變長(zhǎng)度輸入沒有復(fù)雜性,原則上任何傳統(tǒng)的機(jī)器學(xué)習(xí)算法都可以使用隨機(jī)森林作為首選。對(duì)于基于窗口的方法,例如 wiNNer,由于其神經(jīng)網(wǎng)絡(luò)包含多個(gè)隱藏層,因此被歸類為深度學(xué)習(xí),不同長(zhǎng)度的肽段有助于同一模型。該模型預(yù)測(cè)了由一次斷裂一個(gè)肽鍵形成的離子相對(duì)于光譜中最高峰的峰高。特征空間是固定長(zhǎng)度的,可以認(rèn)為是表示當(dāng)前考慮的鍵周圍的序列窗口以及一些附加特征。特征包括以所考慮的肽鍵為中心的序列窗口中的 one-hot 編碼氨基酸、肽的長(zhǎng)度、到 C 和 N 末端的距離(殘基數(shù))、末端的 one-hot 編碼氨基酸加上值元數(shù)據(jù)參數(shù)也被饋送到基于 RNN 的模型中。通過沿序列滑動(dòng)窗口,將從一個(gè)肽創(chuàng)建多個(gè)基于窗口的訓(xùn)練數(shù)據(jù)實(shí)例。其他幾種方法也屬于這一類,因?yàn)樗鼈兊念A(yù)測(cè)一次只關(guān)注一個(gè)肽鍵,并且特征部分是從具有小窗口大小的鍵周圍的氨基酸中招募的。盡管與基于 RNN 的預(yù)測(cè)相比,基于窗口的預(yù)測(cè)的預(yù)測(cè)精度通常較低,但它可以接近,并且具有減少訓(xùn)練實(shí)例數(shù)量和降低計(jì)算復(fù)雜度的潛在優(yōu)點(diǎn)。

全光譜預(yù)測(cè)

開發(fā)了一種基于 CNN 的架構(gòu),用于預(yù)測(cè)包括非骨架離子在內(nèi)的全光譜。該方法不依賴于峰注釋,而是使用最高 2,000?Da 的分箱 m/z 范圍,分箱寬度為 0.1,從而生成 20,000 維向量作為預(yù)測(cè)強(qiáng)度的目標(biāo)。輸入序列的 one-hot 編碼用于預(yù)測(cè)雙電荷和三電荷未修改的 HCD 光譜,許多訓(xùn)練實(shí)例可用。大約需要 150 萬個(gè)光譜才能達(dá)到預(yù)測(cè)精度的飽和。由于可用于訓(xùn)練的電荷一和四個(gè) HCD 光譜要少得多,因此將多任務(wù)學(xué)習(xí)應(yīng)用于預(yù)測(cè)不太頻繁的電荷狀態(tài)。一個(gè)輔助預(yù)測(cè)任務(wù),即前體電荷預(yù)測(cè),作為一種聚焦方法被集成到模型中,以避免災(zāi)難性遺忘。通過包含碎片類型的偽預(yù)測(cè)器,通過與 HCD 模型類似的集成來實(shí)現(xiàn)電子轉(zhuǎn)移解離譜的預(yù)測(cè)。全光譜預(yù)測(cè)的未來工作可能包括擴(kuò)展到其他碎片化方法。此外,特征歸因方法的應(yīng)用可能會(huì)揭示非骨架離子產(chǎn)生背后的機(jī)制。

修飾和交聯(lián)的多肽

PTMs是對(duì)蛋白質(zhì)的共價(jià)修飾,可以發(fā)生在氨基酸側(cè)鏈或末端。它們的存在改變了離子序列成員的質(zhì)量,也可以對(duì)峰強(qiáng)度產(chǎn)生深遠(yuǎn)的影響。此外,由于特定于修改的中性損失,它們可能會(huì)產(chǎn)生額外的碎片。遷移學(xué)習(xí)用于修改 pDeep2以預(yù)測(cè)包含修改的光譜。該模型首先在來自未修飾肽的大型光譜數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。完整模型由一個(gè)輸入層、兩個(gè)雙向 LSTM 層和一個(gè)輸出層組成,輸出層增加了代表由 PTMs中性損失引起的 b 和 y 離子的節(jié)點(diǎn)。遷移學(xué)習(xí)步驟中,只有第一個(gè) LSTM 層和輸出層被微調(diào),而模型的其余部分被凍結(jié)在其預(yù)訓(xùn)練狀態(tài)。結(jié)果發(fā)現(xiàn),特別是當(dāng)只有少量攜帶 PTMs 的光譜可用時(shí),遷移學(xué)習(xí)模式的性能優(yōu)于從頭訓(xùn)練的模型的性能。一個(gè)模型最近被用于修飾肽的保留時(shí)間預(yù)測(cè)。將來可能會(huì)改進(jìn)表示,因?yàn)樗荒艹浞直硎緩?fù)雜的 PTMs,例如糖基化,不能區(qū)分異構(gòu)體,并且固有地在修飾的原子組成之間進(jìn)行插值,這可能不是表示化學(xué)性質(zhì)的最佳選擇。DeepPhospho 是另一種深度學(xué)習(xí)模型,它通過使用轉(zhuǎn)換器網(wǎng)絡(luò)預(yù)測(cè)肽碎片模式,將光譜庫(kù)預(yù)測(cè)集成到 DIA 工作流程中。

交聯(lián)質(zhì)譜法中產(chǎn)生了另一類需要專門方法進(jìn)行光譜預(yù)測(cè)的肽。此處產(chǎn)生了成對(duì)的肽,它們通過連接兩個(gè)氨基酸的接頭共價(jià)連接,兩個(gè)氨基酸中的一個(gè)來自兩個(gè)肽中的每一個(gè)。每個(gè)肽的片段化模式都受到其他肽存在的影響,這使得它們的預(yù)測(cè)比線性肽更難。一些片段包括接頭和相應(yīng)的其他肽,這使它們平均更重和更高的電荷。與線性肽相比,交聯(lián)肽的可用數(shù)據(jù)較少,并且由于許多可用的交聯(lián)試劑,它們顯示出高度的多樣性。交聯(lián)劑可以通過質(zhì)譜法裂解或不可裂解,從而產(chǎn)生兩種不同類型的碎片光譜。pDeepXL 是一個(gè)深度神經(jīng)網(wǎng)絡(luò),它在可切割和不可切割交聯(lián)數(shù)據(jù)上分別進(jìn)行訓(xùn)練,從而產(chǎn)生兩個(gè)基于遷移學(xué)習(xí)的預(yù)測(cè)模型。深度學(xué)習(xí)架構(gòu)的未來迭代可能與交聯(lián)肽的保留時(shí)間預(yù)測(cè)器一起在集成到其分?jǐn)?shù)中時(shí)可能會(huì)提高交聯(lián)搜索引擎的敏感性。

DDA 應(yīng)用

準(zhǔn)確片段光譜強(qiáng)度預(yù)測(cè)的一個(gè)重要應(yīng)用是其用于改進(jìn)實(shí)驗(yàn)光譜與候選肽段的匹配。在 DDA 中,肽數(shù)據(jù)庫(kù)搜索引擎為每個(gè)給定的碎片譜做出決定,通常在幾個(gè)候選中構(gòu)成最佳肽譜匹配 (PSM)。PSM 分配正確性的整體改進(jìn)導(dǎo)致更好的靈敏度、特異性或兩者兼而有之。強(qiáng)度整合的早期嘗試表明,這在原則上是可行的。最近表明,通過使用強(qiáng)度信息,可以在標(biāo)準(zhǔn)蛋白質(zhì)組搜索中針對(duì)來自智人UniProt蛋白質(zhì)序列的物種特異性序列數(shù)據(jù)庫(kù)進(jìn)行標(biāo)準(zhǔn)蛋白質(zhì)組搜索,從而進(jìn)一步提高分配的正確性,該數(shù)據(jù)庫(kù)包含所有胰蛋白酶肽,最多有幾個(gè)缺失的切割。一種方法直接將強(qiáng)度信息集成到Andromeda搜索引擎分?jǐn)?shù)中,另一種方法使用滲透器將光譜比較特征與 MS-GF+ 搜索引擎分?jǐn)?shù)集成。靈敏度的提高取決于 q 值,并且在 q 值較小時(shí)更高。在 1% 的標(biāo)準(zhǔn) FDR 下,深度學(xué)習(xí)預(yù)測(cè)的改進(jìn)約為 4%。盡管對(duì)標(biāo)準(zhǔn)蛋白質(zhì)組的鑒定增加只是適度的,但預(yù)計(jì)在更大的搜索空間中,強(qiáng)度預(yù)測(cè)的好處更高,因?yàn)樵谀硞€(gè)公差窗口內(nèi),每個(gè)前體質(zhì)量平均存在更多潛在的 PSM,其中正確的 PSM 需要被發(fā)現(xiàn)。具有較大肽搜索空間的應(yīng)用包括免疫肽組學(xué)、蛋白質(zhì)組學(xué)和元蛋白質(zhì)組學(xué)。

免疫肽組學(xué)專注于與人類白細(xì)胞抗原 (HLA) 結(jié)合的肽,這些肽由細(xì)胞內(nèi)蛋白質(zhì)的蛋白酶體降解產(chǎn)生,然后重新定位到細(xì)胞表面。定義呈現(xiàn)在癌細(xì)胞上的 HLA 肽組是生物醫(yī)學(xué)研究的一個(gè)深入研究領(lǐng)域,因?yàn)檫@些肽為治療干預(yù)提供了靶標(biāo)。與必須由特定蛋白酶消化才能進(jìn)行鳥槍法蛋白質(zhì)組學(xué)的蛋白質(zhì)相比,HLA 肽可以通過質(zhì)譜直接測(cè)量,但由于非特異性切割而帶來了搜索空間增加的挑戰(zhàn)。此外,管理片段化的規(guī)則與胰蛋白酶肽的規(guī)則不同。因此,預(yù)測(cè) HLA 肽片段化的模型也需要在非胰蛋白酶肽上進(jìn)行廣泛的訓(xùn)練?;谏疃葘W(xué)習(xí)的強(qiáng)度預(yù)測(cè)用于改進(jìn)免疫肽組學(xué)中的肽鑒定。

蛋白質(zhì)組學(xué)是借助基因組或轉(zhuǎn)錄組序列對(duì)蛋白質(zhì)組的研究,允許識(shí)別不屬于參考蛋白質(zhì)組序列的肽。這種擴(kuò)展序列空間的計(jì)算機(jī)翻譯導(dǎo)致肽搜索空間膨脹,在確定光譜的最佳 PSM 時(shí)必須考慮這一點(diǎn)。搜索空間膨脹的程度取決于科學(xué)問題,范圍可以從包含轉(zhuǎn)錄本的非翻譯區(qū)域到整個(gè)基因組的六幀翻譯。蛋白質(zhì)組學(xué)還受益于通過在基于滲濾器的方法中對(duì) PSM 重新評(píng)分來整合預(yù)測(cè)的光譜強(qiáng)度。蛋白質(zhì)組學(xué)搜索空間是通過核糖體分析和基于使用納米孔的 RNA 測(cè)序 (RNA-seq) 的三幀翻譯數(shù)據(jù)庫(kù)生成的。后者導(dǎo)致序列數(shù)據(jù)庫(kù)大小增長(zhǎng)超過 50 倍,相關(guān)的氨基酸含量增加了 20 倍。

盡管應(yīng)用于標(biāo)準(zhǔn)蛋白質(zhì)組、蛋白質(zhì)基因組學(xué)和免疫肽組的方法不同,不能直接比較,但結(jié)果表明,到目前為止,免疫肽組學(xué)的改進(jìn)是最大的。深度學(xué)習(xí)在多肽識(shí)別問題上的另一個(gè)有前途的應(yīng)用是DeepMatch,它規(guī)避了光譜的預(yù)測(cè),直接預(yù)測(cè)PSM分?jǐn)?shù)。盡管該方法在識(shí)別率方面顯示出有希望的結(jié)果,但其計(jì)算要求太高,無法將其整合到常規(guī)的肽搜索引擎中。

DIA 應(yīng)用

DIA 數(shù)據(jù)分析工作流程可細(xì)分為以光譜為中心和以肽為中心的方法。以光譜為中心的軟件工具從 DIA 數(shù)據(jù)的前體和碎片特征中組裝偽 DDA 光譜,然后將其提交給傳統(tǒng)的搜索引擎。在以肽為中心的方法中,專用光譜庫(kù)用于查詢 DIA 樣品中由庫(kù)光譜表示的肽。因此,以肽為中心的方法可以直接受益于文庫(kù)預(yù)測(cè)。已經(jīng)開發(fā)了幾個(gè)以肽為中心的軟件框架,原則上它們都可以與預(yù)測(cè)的庫(kù)一起操作。對(duì)于沒有額外富集的單一物種的標(biāo)準(zhǔn)蛋白質(zhì)組學(xué)樣品,例如磷酸化,發(fā)現(xiàn)使用無偏的完整蛋白質(zhì)組計(jì)算機(jī)預(yù)測(cè)庫(kù)進(jìn)行胰蛋白酶消化是可行和有益的。此外,蛋白質(zhì)鑒定的錯(cuò)誤率處于良好的統(tǒng)計(jì)控制之下,即使在使用如此大的計(jì)算機(jī)庫(kù)時(shí)也是如此。

結(jié)論

目前光譜庫(kù)預(yù)測(cè)工具的預(yù)測(cè)準(zhǔn)確性正在推進(jìn)DDA和DIA數(shù)據(jù)分析。在DDA中對(duì)PSMs的重新評(píng)分正在改善其敏感性-特異性特征。DIA數(shù)據(jù)分析現(xiàn)在可以在光譜庫(kù)的無偏全蛋白質(zhì)組預(yù)測(cè)的基礎(chǔ)上常規(guī)進(jìn)行,消除了測(cè)量項(xiàng)目特定庫(kù)的需要。盡管取得了這些進(jìn)展,蛋白質(zhì)組學(xué)仍然面臨著靈敏度方面的挑戰(zhàn)。盡管細(xì)胞蛋白質(zhì)組可以常規(guī)地進(jìn)行足夠深度的量化,但大多數(shù)蛋白質(zhì)的序列覆蓋還遠(yuǎn)未完成,并且落后于RNA-seq的轉(zhuǎn)錄組分析。這意味著,由于缺乏敏感性,在鳥槍法蛋白質(zhì)組學(xué)中往往不能解決因替代剪接而存在的蛋白質(zhì)形態(tài)。同樣,單細(xì)胞蛋白質(zhì)組學(xué)和血漿蛋白質(zhì)組學(xué)將大大受益于靈敏度和動(dòng)態(tài)測(cè)量范圍的改善。通過將強(qiáng)度信息更好地整合到現(xiàn)有的搜索引擎中,碎片光譜的預(yù)測(cè)將有助于解決這些挑戰(zhàn)。為此,也為了適應(yīng)PTMs,強(qiáng)度預(yù)測(cè)模型必須具有計(jì)算效率。此外,需要考慮的肽類的多樣性,使得一個(gè)什么都知道的大型深度學(xué)習(xí)模型似乎不太可能成為首選方式。相反,許多專門的模型,每一個(gè)都可以通過適度的努力和有限的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,應(yīng)該能更好地滿足需求。

參考資料

Cox, J. Prediction of peptide mass spectral libraries with machine learning. Nat Biotechnol (2022). 

https://doi.org/10.1038/s41587-022-01424-w

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)挖掘賦能解析微生物生態(tài)位與蛋白同源序列關(guān)聯(lián)性,助力靶向預(yù)測(cè)蛋白結(jié)構(gòu)
NEJM|分子醫(yī)學(xué)中的人工智能
基于質(zhì)譜的蛋白質(zhì)鑒定,第4節(jié):基于MALDI-MS-PSD的多肽序列分析
淺析LED光輸出強(qiáng)度衰退的評(píng)估
偏最小二乘回歸(PLSR)和主成分回歸(PCR)
比“生物界AlphaGo”更厲害,MIT:給我一個(gè)氨基酸序列,就能告訴你蛋白質(zhì)功能
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服