編譯:晨晨,編輯:小白、江舜堯。
原創(chuàng)微文,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載。
早在1951年,Sanger意識到蛋白可能是致病的根源,同時(shí)也可能是治療疾病的關(guān)鍵,因此需要不斷鑒定這些蛋白的關(guān)鍵作用。隨著測序技術(shù)的發(fā)展,單分子DNA測序,基因組學(xué)和轉(zhuǎn)錄組學(xué)提高了藥物敏感性、降低了藥物價(jià)格并促進(jìn)了藥物的發(fā)展,但是蛋白組學(xué)技術(shù)滯后。目前,蛋白組學(xué)的研究主要依賴于質(zhì)譜(MS)技術(shù)而非真正的測序技術(shù),MS技術(shù)能將蛋白進(jìn)行分類,而該技術(shù)需要約十億個(gè)拷貝的蛋白分子。本文闡述了一些可替代MS蛋白鑒定的測序方法。這些方法的敏感性較高,并且具有一定的可擴(kuò)展性,同時(shí)適用于蛋白氨基酸序列的生信分析工具。
論文ID
內(nèi)容
1. 引言:中心法則
生物學(xué)的中心法則描述了從DNA序列到蛋白一級結(jié)構(gòu)即氨基酸序列的信息流。首先,DNA轉(zhuǎn)錄成RNA,接著RNA加工成mRNA,mRNA翻譯成蛋白序列。將mRNA翻譯成蛋白序列是關(guān)鍵步驟,由于起始位點(diǎn)和開放閱讀框ORF的鑒定是不確定的,因此遺傳密碼、編碼區(qū)的突變、翻譯起始位點(diǎn)的變化和翻譯后修飾,都可能導(dǎo)致蛋白序列的改變,這些因素的改變極可能導(dǎo)致翻譯的蛋白結(jié)構(gòu)和化學(xué)性質(zhì)發(fā)生改變。
蛋白質(zhì)作為生物功能的體現(xiàn)者,決定了細(xì)胞結(jié)構(gòu)和活性,為細(xì)胞與和組織提供了信號機(jī)制,并且催化代謝過程中的化學(xué)反應(yīng)。此外,蛋白結(jié)構(gòu)決定其功能。由于蛋白質(zhì)可能是多種疾病的根源(如阿爾茨海默氏癥),因此也可以用它來治療疾病(如蛋白質(zhì)抗體能治療病毒和細(xì)菌感染)。在1950年,Sanger、Tuppy和Edman 首次分析了氨基酸序列。隨后,Holley研究組研究tRNA,Sanger致力于rRNA的研究,對RNA進(jìn)行了首次測序。接下來,DNA采用一系列方法(如加減法)進(jìn)行測序。隨著PCR技術(shù)和其它酶學(xué)的發(fā)展,DNA測序成為焦點(diǎn),其總量和輸出量有很大提高。由于反轉(zhuǎn)錄酶使得RNA能反轉(zhuǎn)錄為cDNA,然后再進(jìn)行DNA測序,RNA測序也從中受益。然而,蛋白組測序技術(shù)處于滯后狀態(tài)。
由于測序技術(shù)成本降低,基因組和轉(zhuǎn)錄組測序被間接用于分析蛋白的一級結(jié)構(gòu),但是不能獲取蛋白編碼基因的全長信息。例如,人類轉(zhuǎn)錄組具有116,156個(gè)新的轉(zhuǎn)錄本,這些轉(zhuǎn)錄本不存在于已有的數(shù)據(jù)庫中。因?yàn)榛蚪M組裝的錯(cuò)誤率為0.1%,基因組組裝后不能完全捕獲蛋白編碼基因,例如,大腸桿菌的基因組大小為5 Mb,測序組裝的結(jié)果約有5000個(gè)錯(cuò)誤。單個(gè)堿基的插入或缺失是長讀長測序技術(shù)中的主要錯(cuò)誤,會產(chǎn)生移碼突變,使預(yù)測的蛋白一級結(jié)構(gòu)發(fā)生很大的改變。人類基因組組裝時(shí),高達(dá)580個(gè)(1.5%)的轉(zhuǎn)錄本具有堿基的插入和缺失,使得難以與人為突變區(qū)分。另一方面,通過直接比對氨基酸序列,移碼突變?nèi)菀妆话l(fā)現(xiàn)。此外,RNA轉(zhuǎn)錄本的檢測不能對細(xì)胞或組織中的蛋白進(jìn)行定量。在翻譯效率上有許多基因特異的作用,如轉(zhuǎn)錄后調(diào)控,包括RNA修飾和RNA末端添加polyA尾,能改變RNA的生命周期和蛋白翻譯速率,使得蛋白檢測需要其它明確的方法。
因此,盡管基因組和轉(zhuǎn)錄組測序價(jià)格便宜,但不能解決全部問題。mRNA轉(zhuǎn)錄過程的不同,翻譯后修飾和翻譯后結(jié)構(gòu)的加工只能通過蛋白水平的直接分析來展現(xiàn),這些對蛋白的研究是迫切需要的。然而,整個(gè)蛋白測序較難完成。蛋白一級結(jié)構(gòu)是氨基酸組成的線性序列,包含20種氨基酸,每個(gè)氨基酸體積約為0.1 nm3,由肽鍵相連。人類蛋白約有375個(gè)氨基酸殘基。因此,上百個(gè)氨基酸需要亞納米級的分辨率來進(jìn)行測序。除了20個(gè)組成蛋白的氨基酸之外,還有些氨基酸異構(gòu)體組成的復(fù)合物對蛋白直接測序構(gòu)成了挑戰(zhàn)。異構(gòu)體源自于緊密相連的重復(fù)基因或者同一個(gè)基因的可替代性剪接、蛋白裂解、體細(xì)胞重組或者翻譯后修飾。據(jù)猜測,蛋白編碼基因約20,000個(gè),考慮到可替代性剪接,單個(gè)氨基酸多態(tài)性和翻譯后修飾,估計(jì)每個(gè)基因有100個(gè)異構(gòu)體。翻譯后修飾使得蛋白水平的分析較為困難,翻譯后修飾包括糖基化、甲基化、乙?;土姿峄7g后修飾較為常見,如60%的蛋白發(fā)生了糖基化。然而,這些修飾難以被傳統(tǒng)的方法檢測到。
2. 在基因組學(xué)和轉(zhuǎn)錄組學(xué)之外,利用質(zhì)譜(MS)研究蛋白組學(xué)
20世紀(jì)90年代,主要通過Edman降解法進(jìn)行蛋白測序。在該過程中,苯異硫氰酸酯與N-端氨基反應(yīng),形成苯氨基硫甲酰衍生物,隨后裂解成為噻唑啉酮和一個(gè)新的N-端。釋放的噻唑啉酮氨基酸被固定后,使用電泳或色譜技術(shù)進(jìn)行確定。然后,繼續(xù)重復(fù)該過程。Edman法較為緩慢(1個(gè)循環(huán)花費(fèi)1個(gè)小時(shí)),并且局限于小于30個(gè)殘基的多肽,每個(gè)氨基酸的正確率大于99%。Edman降解法需要100 pmol純肽,不適用于N端無游離α-氨基的氨基酸,不能如實(shí)的測定翻譯后修飾蛋白。
目前,蛋白組學(xué)主要依賴于bottom-up法進(jìn)行蛋白的質(zhì)譜分析(BU-MS)(圖1A)。BU-MS分析涉及到蛋白酶解(通常是胰蛋白酶),多肽離子化,根據(jù)質(zhì)荷比(m/z)進(jìn)行離子檢測。胰蛋白酶解多肽由電噴霧離子化或基質(zhì)輔助激光解析電離,在氣相中進(jìn)行多肽離子化,分析其質(zhì)量,然后將離子破碎,從質(zhì)譜中恢復(fù)序列信息。液相色譜-MS(LC-MS)在離子化前能用來分離化合物,并傳遞給質(zhì)譜儀。
BU-MS實(shí)際上本身不能對蛋白進(jìn)行測序,但是能推斷出蛋白一級結(jié)構(gòu)或者對蛋白進(jìn)行分類,這種方法不太敏感。多肽質(zhì)量作為“指紋”,使用Mascot或Sequest數(shù)據(jù)庫能將其與蛋白數(shù)據(jù)庫中的已知蛋白進(jìn)行關(guān)聯(lián)。因?yàn)橐恍┌被峋哂邢嗤馁|(zhì)量(如亮氨酸和異亮氨酸),所以將序列同源搜索與數(shù)據(jù)庫查找相結(jié)合。BU-MS的缺點(diǎn)是蛋白被鑒定前首先需要被消化成5-20個(gè)氨基酸組成的多肽。接下來,數(shù)據(jù)庫搜索比對一些片段到整個(gè)蛋白,這一步受限于蛋白之間的序列同源性或相似性。最后,將多肽序列比對到特殊的蛋白是由將多肽比對所有可能的相關(guān)蛋白,在重構(gòu)前通過排除多余肽段或者找到所有的揭示這些現(xiàn)象的最小蛋白集完成。
BU-MS的敏感性是指準(zhǔn)確鑒定多肽序列所需要的光譜數(shù)。Gris指出,由于信噪比低、數(shù)據(jù)庫的不完整和預(yù)料不到的翻譯后修飾,蛋白收集到的75%的光譜仍未得到鑒定。使用聚類法能將20%的光譜得到鑒定,但有60%的仍未解決。因此,BU-MS確定的肽段數(shù)目有限,不能測定全序列。與基因組學(xué)相比,MS具有高通量、準(zhǔn)確性高和具有再現(xiàn)性的優(yōu)點(diǎn),但具有敏感性低和讀長短的缺點(diǎn)。
敏感性是最重要的,典型的質(zhì)譜檢測限約480 fg,相當(dāng)于10 amol或6百萬, 50 kDa(50 kDa是人類蛋白組的平均分子量)的蛋白分子。敏感性低導(dǎo)致動態(tài)范圍有限。動態(tài)范圍是檢測可測肽段或蛋白信號的標(biāo)準(zhǔn)。在含有大量肽段時(shí),動態(tài)范圍高時(shí)能檢測到豐度較少的肽段。MS中的商業(yè)雜交軌道阱動態(tài)范圍有5個(gè)數(shù)量級(Thermo Fisher Scientific),然而,一個(gè)臨床樣本的蛋白濃度能擴(kuò)展到12個(gè)數(shù)量級。例如,在人類血清中,抗體濃度為mg/ml,然而細(xì)胞因子的濃度為pg/ml。在細(xì)胞外液中低分子量的細(xì)胞因子作為血清生物標(biāo)志物的主要靶標(biāo)。但是因?yàn)槠渚哂懈呱锘钚?,如果不進(jìn)行富集或者分級,他們的濃度低到無法被MS檢測,尤其是在人類血清中。實(shí)際上,不到1%的離子被應(yīng)用于質(zhì)量分析,然而,“Boxcar”法能通過質(zhì)荷比分離樣品,提高了這一部分,因此動態(tài)范圍增加了10倍。實(shí)驗(yàn)中的串聯(lián)質(zhì)譜像多反應(yīng)檢測和抗體富集的敏感性增強(qiáng)了10,000-100,000倍,然而,鑒定通常需要一百萬到十億個(gè)蛋白拷貝。
即使正確地識別了多肽,尋找和發(fā)現(xiàn)異構(gòu)體,特別是翻譯后修飾蛋白的檢測和定位,仍然是一個(gè)問題。MS已經(jīng)通過離子交換、固定化親和色譜等富集策略捕獲翻譯后修飾蛋白,但是很難捕捉。缺陷包括質(zhì)量測定不準(zhǔn)確,與替代氨基酸混淆,以及位點(diǎn)分配不確定。根據(jù)Liu等人的研究,提高質(zhì)量測量精度(MMA)可以減少組成肽段的可能的氨基酸數(shù)量。例如,對于高可信度的鑒定,MMA為百萬分之一(ppm)可以排除99%具有相同質(zhì)量但不同的氨基酸。而線性離子阱MS的MMA為100-250 ppm,因此,一部分蛋白可能會被錯(cuò)誤識別。另一方面,軌道阱是MS的主要設(shè)備,根據(jù)制造商的規(guī)范,它的MMA <10 ppm,但是對于解釋軌道阱的數(shù)據(jù),它的MMA可達(dá)50 ppm。除了MMA,位點(diǎn)不確定性尤其成問題。Kim等人的研究表明,這個(gè)問題可以通過考慮磷酸化來簡明地說明,信號轉(zhuǎn)導(dǎo)途徑的重要修飾主要發(fā)生在絲氨酸,蘇氨酸和酪氨酸殘基上。在人類蛋白組中大約有2000萬個(gè)殘基,絲氨酸,蘇氨酸和酪氨酸殘基的數(shù)量大約分別是150萬,100萬和50萬。對于10個(gè)氨基酸長度的胰蛋白酶肽,大約有1.5個(gè)磷酸化位點(diǎn)。換句話說,在其多肽內(nèi)部有多個(gè)可能的磷酸化位置。所以,位點(diǎn)被統(tǒng)計(jì)分配。但是,對于大約一半的多肽,PTM的位點(diǎn)定位是有問題的,或者,使用BU-MS需要有PTM的知識。這一問題可以通過替代分離技術(shù)解決,但需要更多的樣本,并排除了對修飾組合模式的明確檢查。
另一方面,TD-MS可識別完整的蛋白,并可檢測序列變異或?yàn)闇y序提供一個(gè)支架,但其敏感性比BU-MS低約100倍,它需要大磁體(7到14 T),在蛋白組覆蓋率和通量方面通常低于BU-MS(圖 1B)。TD-MS分析通過電噴霧電離將完整的蛋白離子引入氣相,然后通過質(zhì)譜儀中碰撞誘導(dǎo)分離、或電子捕獲離解或電子轉(zhuǎn)換離解進(jìn)行片段化,產(chǎn)生蛋白和碎片離子。如果有足夠的片段,這種分析可以提供蛋白一級結(jié)構(gòu)及其相應(yīng)修飾的全面圖像。然而,如果蛋白分子大于50-70 kDa,則很難使完整蛋白離子在氣相中片段化。它需要一個(gè)相對高端的設(shè)備來解決相似體積的大分子之間的差異。賴氨酸三甲基化和乙?;g的質(zhì)量差異僅為0.0364 Da。對于一個(gè)平均為50 kDa的人類蛋白,識別一個(gè)完整的蛋白離子需要設(shè)備分辨率<1 ppm。然而,對于1 kDa片段,所需的分辨率< 37 ppm。帶有7-T磁鐵的線性四極離子阱/傅里葉變換離子回旋共振質(zhì)譜儀的質(zhì)量精度只有2 ppm,而使用軌道阱的碰撞誘導(dǎo)離解碎片時(shí),典型的質(zhì)量精度為<10 ppm。
根據(jù)Steen和Mann,MS對蛋白的靈敏度和檢測限比對多肽差得多。隨著分子量的增加,完整蛋白的碎裂效率因?yàn)槿壗Y(jié)構(gòu)的復(fù)雜性而降低。因此,質(zhì)量分?jǐn)?shù)大的蛋白則需要高純度和高濃度(0.5-1 mg/ml)。所以,大多數(shù)TD的應(yīng)用程序致力于質(zhì)量<70 kDa的蛋白,只有少數(shù)用于更大的蛋白(>100 kDa)。
因此,人類蛋白組中直接鑒定整個(gè)蛋白需要的是一個(gè)具有高通量、高準(zhǔn)確度和敏感度的方法。理想情況下,該方法將直接“讀取”氨基酸序列、PTMs和異構(gòu)體的一級結(jié)構(gòu),而不需要通過搜索數(shù)據(jù)庫。
圖1 MS推斷蛋白一級結(jié)構(gòu)
MS采用兩種方法推斷蛋白的一級結(jié)構(gòu):(A)bottom-up (BU-MS) (B)top-down (TD-MS)法分析<70 KDa的完整蛋白。BU-MS的流程為:蛋白首先經(jīng)過胰蛋白酶消化,產(chǎn)生1.8-3 kDa的片段,再進(jìn)行MS分析。TD-MS能將完整的蛋白離子再氣相中片段化(平均10 kDa)并使用MS分析整個(gè)蛋白和蛋白離子片段。這兩種方法都離不開數(shù)據(jù)庫搜索對蛋白進(jìn)行鑒定。CID,碰撞誘導(dǎo)解離; ECD, 電子捕獲分離; ETD, 電子轉(zhuǎn)移解離。