国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
中國(guó)生物器材網(wǎng)--DNA測(cè)序技術(shù)的現(xiàn)狀和發(fā)展(中)


2. 用于處理新一代測(cè)序技術(shù)數(shù)據(jù)的軟件和標(biāo)準(zhǔn)

各種新一代測(cè)序儀的飛速發(fā)展面臨著一個(gè)極其重要的問(wèn)題,那就是生物信息學(xué)問(wèn)題,這些問(wèn)題包括序列質(zhì)量評(píng)分(sequence quality scoring)問(wèn)題、序列比對(duì)問(wèn)題、序列組裝問(wèn)題、數(shù)據(jù)發(fā)布問(wèn)題等。下面將逐個(gè)進(jìn)行討論。

2.1 序列質(zhì)量問(wèn)題

目前,序列質(zhì)量評(píng)分問(wèn)題是受到廣泛關(guān)注的一個(gè)問(wèn)題。造成這種現(xiàn)象的原因主要是因?yàn)樗行乱淮鷾y(cè)序儀的測(cè)序質(zhì)量都不高,而且不同的序列情況都有各自的誤差率。隨著新一代測(cè)序儀產(chǎn)品的不斷成熟,在臨床及科研工作中的應(yīng)用范圍越來(lái)越廣,它們的測(cè)序質(zhì)量也就變得重要起來(lái),而且我們也需要對(duì)各個(gè)測(cè)序儀的測(cè)序質(zhì)量有一個(gè)清晰的、可靠的評(píng)價(jià)標(biāo)準(zhǔn)。由于這個(gè)問(wèn)題還只是剛剛出現(xiàn),所以我們有機(jī)會(huì)設(shè)立一個(gè)全球統(tǒng)一的、標(biāo)準(zhǔn)化的評(píng)價(jià)體系對(duì)目前現(xiàn)有的以及將來(lái)即將出現(xiàn)的測(cè)序儀進(jìn)行評(píng)價(jià)。我們希望避免再次發(fā)生類(lèi)似過(guò)去幾個(gè)芯片廠家之間進(jìn)行數(shù)據(jù)比較的尷尬局面。對(duì)于測(cè)序儀的應(yīng)用范圍進(jìn)行標(biāo)準(zhǔn)化的質(zhì)量評(píng)價(jià)也是有好處的。比如評(píng)價(jià)從頭測(cè)序的質(zhì)量、評(píng)價(jià)測(cè)序結(jié)果與參考序列的相似度、評(píng)價(jià)測(cè)序儀發(fā)現(xiàn)突變以及多態(tài)性的能力以及對(duì)測(cè)序儀在進(jìn)行大規(guī)模測(cè)序項(xiàng)目研究時(shí)的質(zhì)量可靠性進(jìn)行評(píng)價(jià)等。表7列出了幾項(xiàng)應(yīng)該被重點(diǎn)評(píng)價(jià)的項(xiàng)目。

這些質(zhì)量數(shù)據(jù)都應(yīng)該以一種簡(jiǎn)單、標(biāo)準(zhǔn)化的方式包含在測(cè)序結(jié)果中。現(xiàn)在所有的測(cè)序儀器生產(chǎn)商也都在他們的測(cè)序報(bào)告中加入了測(cè)序質(zhì)量信息,消費(fèi)者可以借此對(duì)數(shù)據(jù)進(jìn)行交叉比較,甚至還有可能各取所長(zhǎng),將不同測(cè)序儀的測(cè)序結(jié)果整合起來(lái),獲得最佳的測(cè)序結(jié)果。目前,旨在從短片段測(cè)序結(jié)果中發(fā)現(xiàn)多態(tài)性以及突變位點(diǎn)的重測(cè)序項(xiàng)目經(jīng)常會(huì)依靠“主要投票機(jī)制(majority voting scheme)”。該方法易于操作,但是容易出錯(cuò),假陰性率較高。諸如Brockman小組和Quinlan小組開(kāi)發(fā)的,更多更好的用于發(fā)現(xiàn)單核苷酸多態(tài) 性的方法是將誤差率與單個(gè)堿基信號(hào)聯(lián)系起來(lái),即誤差率與測(cè)序質(zhì)量和序列內(nèi)容相關(guān),這樣就能獲得更準(zhǔn)確的結(jié)果。我們估計(jì),像phred樣質(zhì)量值之類(lèi)的評(píng)價(jià)體 系以及“第三方”算法的不斷發(fā)展,最終一定會(huì)誕生一個(gè)很好的發(fā)現(xiàn)多態(tài)性的工具。

2.2 用于分析數(shù)據(jù)的軟件以及生物信息學(xué)工具

雖然這些軟件和工具都還沒(méi)有完全商業(yè)化,但我們還是能獲得一些軟件用來(lái)分析新一代測(cè)序儀的測(cè)序結(jié)果(表8)。這些軟件和工具的功能主要集中在4個(gè)方面(表9)。

序列比對(duì)和組裝是一個(gè)頗受關(guān)注的問(wèn)題。雖然BLAST和BLAT等序列比對(duì)工具對(duì)于長(zhǎng)片段的序列比對(duì)來(lái)說(shuō)非常有用,但是它們不適合新一代測(cè)序儀獲得的短片段序列。因此,有大量的針對(duì)短測(cè)序片段的比對(duì)工具出現(xiàn),這些工具中允許錯(cuò)配或者空隙出現(xiàn)。這些工具中有些借鑒了非常成熟的序列比對(duì)算法,例如 Smith-Waterman算法等,不過(guò)還是有很多新的專(zhuān)門(mén)針對(duì)短序列片段的算法出現(xiàn)。比如SOAP就是這樣一種新型算法,這個(gè)軟件包能非常有效地進(jìn)行 有空隙或者無(wú)空隙的序列比對(duì)。該軟件包使用了一種內(nèi)存密集種子(memory-intensive seed)算法和查表格(look-up table)算法來(lái)加快比對(duì)速度,同時(shí)能夠?qū)ψ钊菀壮鲥e(cuò)的3’端序列進(jìn)行反復(fù)調(diào)整。

其它用來(lái)加速比對(duì)過(guò)程的方法還包括“字節(jié)編碼(bit encoding)”技術(shù)。該技術(shù)能將序列信息壓縮成計(jì)算機(jī)信息,這樣更利于計(jì)算機(jī)管理和分析。越來(lái)越多的比對(duì)軟件在進(jìn)行比對(duì)時(shí)開(kāi)始考慮數(shù)據(jù)質(zhì)量,比如能 處理Solexa測(cè)序儀測(cè)序結(jié)果和SOLiD測(cè)序儀測(cè)序結(jié)果的MAQ軟件,以及能用最新的“字符空隙轉(zhuǎn)化成彩色空隙(color-space to letter-space)”的Smith-Waterman算法對(duì)SOLiD測(cè)序儀的雙堿基編碼測(cè)序結(jié)果進(jìn)行分析的SHRiMP 工具(http://compbio.cs.toronto.edu/shrimp/)。

和序列比對(duì)算法的進(jìn)展情況不同,如何將相對(duì)低質(zhì)量的短片段序列從頭組裝起來(lái)還是一大難題。不過(guò),已經(jīng)有好幾種組裝工具開(kāi)始投入使用了。對(duì)于這種短片段序列的從頭組裝工作來(lái)說(shuō),配對(duì)序列對(duì)于整個(gè)工作的成功與否影響最大,因此已經(jīng)有人開(kāi)始利用配對(duì)序列設(shè)計(jì)新的組裝工具了。

2.3序列數(shù)據(jù)出版、發(fā)行、組織存檔原則

目前對(duì)于如何組織、存檔以及發(fā)布這些新一代測(cè)序儀產(chǎn)生的短片段序列結(jié)果正處于熱烈的討論之中,人們希望制定一個(gè)類(lèi)似芯片試驗(yàn) (microarray  experiments,

http://uhts.lbl.gov/)時(shí)制定的MIAME(Minimum  Information About a Microarray Experiment)規(guī)則。這些早期的工作經(jīng)驗(yàn)在如何處理包括生物學(xué)注釋信息、臨床原始數(shù)據(jù)、關(guān)鍵試驗(yàn)細(xì)節(jié)(比如樣品特征、樣品處理方法)在內(nèi)的元數(shù)據(jù),以及如何處理、出版發(fā)行這些數(shù)據(jù)等方面給了我們良好的建議。如何對(duì)這些新一代測(cè)序儀的測(cè)序結(jié)果數(shù)據(jù)進(jìn)行公共管理也是一個(gè)需要探討的問(wèn)題。NCBI最近專(zhuān)門(mén)為短片段序列建立了數(shù)據(jù)庫(kù)Short  Read  Archive(SRA),并同步制定數(shù)據(jù)提交格式。SRA數(shù)據(jù)庫(kù)不僅會(huì)收集包括實(shí)驗(yàn)注釋信息、試驗(yàn)參數(shù)等信息的數(shù)據(jù),而且還會(huì)被整合到Entrez查詢(xún)系統(tǒng)當(dāng)中。目前的工作主要包括開(kāi)發(fā)線上搜索工具、數(shù)據(jù)圖形化工具,這些工作有望在近期完成。

3. 新一代測(cè)序技術(shù)的前景

在2007年6月,James Watson的基因組序列登錄到了GenBank數(shù)據(jù)庫(kù)當(dāng)中,這是第一次使用非Sanger測(cè)序法獲得了人類(lèi)個(gè)體基因組序列,并且第一次將個(gè)人基因組序列公之于眾。整個(gè)測(cè)序過(guò)程在兩個(gè)月之內(nèi)就完成了,花費(fèi)不到100萬(wàn)美元,這只占耗時(shí)10年之久的人類(lèi)基因組計(jì)劃使用經(jīng)費(fèi)的千分之一,同時(shí)還是2007年5月 在網(wǎng)上公布結(jié)果的Venter基因組計(jì)劃費(fèi)用的百分之一。我們比較了454測(cè)序儀最初的技術(shù)參數(shù)(每次可以獲得兩千萬(wàn)堿基序列,測(cè)序長(zhǎng)度100bp,準(zhǔn)確 率96%)和用于對(duì)James Watson進(jìn)行測(cè)序時(shí)的技術(shù)參數(shù)(每次可以獲得一億堿基序列,測(cè)序長(zhǎng)度250bp,準(zhǔn)確率超過(guò)99%),結(jié)果發(fā)現(xiàn)摩爾定律真的適用于基因組測(cè)序領(lǐng)域。

454測(cè)序儀和其它的新一代測(cè)序儀(圖7)一起,展示出了小型化技術(shù)和并行處理技術(shù)的威力,它們提高了處理通量,降低了測(cè)序費(fèi)用。除了引領(lǐng)新一代測(cè) 序技術(shù)的發(fā)展之外,454公司的研發(fā)團(tuán)隊(duì)還開(kāi)發(fā)了體外DNA文庫(kù)構(gòu)建、模板擴(kuò)增等技術(shù),而且這些技術(shù)現(xiàn)在都已經(jīng)被市場(chǎng)上其它新一代測(cè)序儀所廣泛使用。很快,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,個(gè)體基因組測(cè)序的費(fèi)用將會(huì)由100,000美元降低到10,000美元,繼而降低到1,000美元甚至更低。個(gè)人基因組時(shí)代馬上就要到來(lái)了!

從費(fèi)用角度、適用范圍和限制性來(lái)說(shuō),傳統(tǒng)測(cè)序儀和新一代測(cè)序儀之間具有明顯的差距。因此,對(duì)于每一個(gè)具體的項(xiàng)目來(lái)說(shuō),都需要仔細(xì)考慮,選擇出最合適 的測(cè)序儀。傳統(tǒng)的Sanger測(cè)序法適用于對(duì)kb~mb長(zhǎng)度的DNA片段進(jìn)行的小規(guī)模的測(cè)序項(xiàng)目。Sanger測(cè)序法相比新一代測(cè)序法而言具有極大的“間隔尺寸(granularity)”,既能用于大型項(xiàng)目也能用于小型項(xiàng)目。雖然與傳統(tǒng)測(cè)序儀相比,新一代測(cè)序儀在某些方面很明顯地處于劣勢(shì),比如在測(cè)序長(zhǎng) 度和準(zhǔn)確率方面,但即便如此,在處理大規(guī)模的測(cè)序項(xiàng)目時(shí)大家還是傾向于選擇新一代測(cè)序儀。

看看新一代測(cè)序儀對(duì)以往使用傳統(tǒng)測(cè)序儀進(jìn)行的生殖細(xì)胞突變和體細(xì)胞突變研究的幫助就可以認(rèn)識(shí)到它們的作用有多么強(qiáng)大。在這項(xiàng)研究里,使用 Sanger測(cè)序法除了試劑這一項(xiàng)費(fèi)用之外,其它的費(fèi)用也遠(yuǎn)遠(yuǎn)高過(guò)了使用其它新一代測(cè)序儀。這些其它費(fèi)用包括在96孔板或384孔板中處理樣品的費(fèi)用、電泳費(fèi)用、大量的生物信息學(xué)處理費(fèi)用以及設(shè)備維護(hù)人工費(fèi)用等。研究人員最近對(duì)100份樣品中的100個(gè)基因使用傳統(tǒng)測(cè)序方法究竟需要花費(fèi)多少費(fèi)用進(jìn)行了一次非正式的調(diào)查,假設(shè)每個(gè)基因平均由10個(gè)外顯子組成,結(jié)果發(fā)現(xiàn)整體費(fèi)用在30萬(wàn)美元至100萬(wàn)美元不等,價(jià)格依據(jù)測(cè)序單位是非盈利的基因組測(cè)序中心還是商 業(yè)化的測(cè)序服務(wù)機(jī)構(gòu)而不同。很顯然,這么高昂的費(fèi)用對(duì)于任何一個(gè)實(shí)驗(yàn)室來(lái)說(shuō)都是難以承受的。新一代測(cè)序儀除了能將測(cè)序費(fèi)用降低好幾個(gè)數(shù)量級(jí)之外,它們還具 有所需儀器設(shè)備少的優(yōu)點(diǎn),不過(guò)新一代測(cè)序儀在后續(xù)數(shù)據(jù)處理方面會(huì)碰到問(wèn)題。

各款新一代測(cè)序儀之間也有非常明顯的差異(表10),它們都有各自“拿手”的絕活(表11)。有一些測(cè)序項(xiàng)目,比如重測(cè)序 (resequencing)對(duì)于測(cè)序儀的測(cè)序長(zhǎng)度要求就沒(méi)有從頭測(cè)序的要求高。對(duì)于需要依靠標(biāo)簽計(jì)數(shù)(tag counting)的測(cè)序項(xiàng)目,例如在定量分析蛋白質(zhì)與DNA之間的相互作用時(shí),我們就會(huì)更加需要能將待測(cè)片段分割成盡量多、盡量小片段的測(cè)序方法。測(cè)序 的準(zhǔn)確度和各自相對(duì)拿手的項(xiàng)目,比如是善于發(fā)現(xiàn)插入、缺失突變還是善于發(fā)現(xiàn)堿基替換突變也是需要著重考慮的問(wèn)題。另外,在進(jìn)行從頭測(cè)序或發(fā)現(xiàn)結(jié)構(gòu)性變異的 研究時(shí)使用的配對(duì)測(cè)序法已經(jīng)廣泛應(yīng)用于各種新一代測(cè)序儀當(dāng)中。這時(shí),這些配對(duì)的模板片段在芯片上的分布情況,比如相互之間的距離遠(yuǎn)近等就是需要重點(diǎn)考慮的問(wèn)題了。

注:DNA測(cè)序領(lǐng)域的快速發(fā)展使得對(duì)各類(lèi)測(cè)序方法的價(jià)格及讀長(zhǎng)的評(píng)估在很短時(shí)間內(nèi)便失去意義。Roche Applied Science、Illumina及Applied Biosystems公司目前都在不斷推出新的產(chǎn)品。表中列出的測(cè)序費(fèi)用只是對(duì)使用的反應(yīng)試劑費(fèi)用的一個(gè)估算。測(cè)序長(zhǎng)度指的是單鏈長(zhǎng)度。

最后,需要考慮的當(dāng)然是價(jià)格因素,各個(gè)新一代測(cè)序儀的費(fèi)用都不相同,作為消費(fèi)者,當(dāng)然希望各個(gè)測(cè)序儀生產(chǎn)廠家之間的競(jìng)爭(zhēng)更加激烈一點(diǎn)。單純比較每個(gè)堿基的測(cè)序費(fèi)用是一個(gè)不錯(cuò)的選擇方法,不過(guò)有時(shí)這也會(huì)誤導(dǎo)我們,比如準(zhǔn)確率更高的方法當(dāng)然費(fèi)用會(huì)高一些。

5. 總結(jié)

過(guò)去幾年間,新一代測(cè)序技術(shù)獲得了突飛猛進(jìn)的進(jìn)展,同時(shí)有好幾款使用大規(guī)模平行循環(huán)芯片測(cè)序技術(shù)的測(cè)序儀得到了廣泛的應(yīng)用。這幾款測(cè)序儀雖然使用的 技術(shù)有所差異,但是在測(cè)序數(shù)據(jù)的質(zhì)量和數(shù)量方面都有著同樣的特征,因此也都面臨著同樣的試驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和注釋的問(wèn)題。不過(guò),這些新一代測(cè)序儀將以往的測(cè)序費(fèi)用降低了好幾個(gè)數(shù)量級(jí)。鑒于此,以前只有大型測(cè)序中心才能夠開(kāi)展的項(xiàng)目,現(xiàn)在在小型實(shí)驗(yàn)室里也能順利進(jìn)行了。由于新一代測(cè)序儀的出現(xiàn),測(cè)序研究領(lǐng)域 也開(kāi)始升溫,有些研究團(tuán)隊(duì)正在努力開(kāi)發(fā)新的測(cè)序技術(shù)希望能夠取代現(xiàn)有的新一代測(cè)序儀。按照目前的發(fā)展速度,我們很難估計(jì)幾年之后的情況。不過(guò),能夠預(yù)計(jì)的 是,下、下一代或者說(shuō)是第三代測(cè)序儀一定會(huì)像十年前的芯片技術(shù)一樣,迅速地普及開(kāi)來(lái),從而成為常規(guī)的技術(shù)。希望人們不僅關(guān)注測(cè)序技術(shù)本身的發(fā)展,更加關(guān)注 如何利用測(cè)序技術(shù)來(lái)揭開(kāi)生物學(xué)和醫(yī)學(xué)上的眾多謎團(tuán)。

原文檢索:
Jay Shendure & Hanlee Ji. (2008) Next-generation DNA sequencing. Nature Biotechnology, 26(10):1135-1145.
Jonathan M Rothberg & John H Leamon. (2008) The development and impact of 454 sequencing. Nature Biotechnology, 26(10): 1117-1124.

四、新型納米孔測(cè)序技術(shù)

新型納米孔測(cè)序法(nanopore sequencing)是采用電泳技術(shù),借助電泳驅(qū)動(dòng)單個(gè)分子逐一通過(guò)納米孔來(lái)實(shí)現(xiàn)測(cè)序的。由于納米孔的直徑非常細(xì)小,僅允許單個(gè)核酸聚合物通過(guò),因而可 以在此基礎(chǔ)上使用多種方法來(lái)進(jìn)行高通量檢測(cè)。此外,納米級(jí)別的孔徑保證了檢測(cè)具有良好的持續(xù)性,所以測(cè)序的準(zhǔn)確度非常高。對(duì)于長(zhǎng)達(dá)1,000個(gè)堿基的單鏈 DNA分子、RNA分子或者更短的核酸分子而言,根本無(wú)需進(jìn)行擴(kuò)增或標(biāo)記就可以使用納米孔測(cè)序法進(jìn)行檢測(cè),這使得便宜、快速地進(jìn)行DNA測(cè)序成為可能。如 果對(duì)現(xiàn)有納米孔測(cè)序法進(jìn)行進(jìn)一步發(fā)展和改進(jìn),那么它將有望成為第三代測(cè)序技術(shù)(也可稱(chēng)為下、下一代測(cè)序技術(shù)),從而幫助人們實(shí)現(xiàn)24小時(shí)內(nèi)只花費(fèi) 1,000美元完成二倍體哺乳動(dòng)物基因組測(cè)序這一目標(biāo)。

一個(gè)盛滿(mǎn)電解質(zhì)溶液的容器被一納米孔膜隔成兩半,如果施以比較小的電壓,如約100mV電壓,就能使用標(biāo)準(zhǔn)的電生理檢測(cè)手段測(cè)量通過(guò)納米孔的電流大小。很多生物電通道的開(kāi)關(guān)都是靠小肽段分子是否堵塞通道來(lái)實(shí)現(xiàn)的?;谶@個(gè)事實(shí),加州大學(xué)圣克魯茲分校(University of California Santa Cruz, UCSC)的Deamer和哈佛大學(xué)(Harvard University)的George Church都不約而同地提出一個(gè)構(gòu)想:如果DNA分子或者RNA分子也能堵塞某個(gè)通道,那么應(yīng)該可以運(yùn)用上述方法來(lái)檢測(cè)電流。接下來(lái),Deamer和 Branton等人證明了單鏈DNA和RNA分子能通過(guò)蛋白質(zhì)組成的孔道,并且能檢測(cè)到它們通過(guò)這種納米級(jí)孔道時(shí)所造成的電流改變(圖8a)。他們使用的孔道蛋白是金黃色葡萄球菌α溶血素(Staphylococcus aureus toxin,α-hemolysin)。這種蛋白以前曾被Bayley小組用作生物傳感器。Bayley小組發(fā)現(xiàn),α溶血素蛋白非常穩(wěn)定,即使在接近100℃的情況下也能維持正常的功能。Deamer和Branton等人發(fā)現(xiàn),因?yàn)棣寥苎氐鞍卓讖椒浅P?,?jiǎn)直與單鏈核苷酸的直徑相差無(wú)幾,所以可以將 折疊卷曲的核苷酸鏈解開(kāi),并僅允許它以單鏈的形式通過(guò)蛋白孔道。單鏈核苷酸分子穿過(guò)蛋白孔道時(shí)會(huì)造成局部電流改變,即相比沒(méi)有分子穿過(guò)時(shí)的電流強(qiáng)度有所減 小。基于這個(gè)現(xiàn)象,Deamer和Branton等人猜測(cè),如果核酸分子中每一個(gè)核苷酸通過(guò)孔道時(shí)都能出現(xiàn)一種特定形式的電流改變,那么通過(guò)分析電流改變 的情況不就能知道核酸的序列了嗎?

為了驗(yàn)證這個(gè)想法,Deamer小組、Meller和Branton小組使用好幾種不同的RNA分子和單鏈DNA分子進(jìn)行了研究,以觀察它們對(duì)電流 的影響。結(jié)果發(fā)現(xiàn),polyC RNA分子引起的電流強(qiáng)度下降比polyA RNA分子要強(qiáng)得多。此外,他們還發(fā)現(xiàn),由30個(gè)A和70個(gè)C組成的RNA分子在序列從A轉(zhuǎn)變成C時(shí)電流強(qiáng)度也會(huì)發(fā)生改變。不過(guò)不幸的是,這種嘌呤和嘧啶之間的明顯差異沒(méi)能在脫氧核糖核苷酸試驗(yàn)中發(fā)現(xiàn)。實(shí)際上,在RNA試驗(yàn)中觀察到的polyA和polyC引起不同形式的電流改變是由堿基堆積(base stacking)和二級(jí)結(jié)構(gòu)上的差異造成的。隨后,使用不同DNA同聚物(DNA homopolymer)進(jìn)行試驗(yàn)發(fā)現(xiàn),脫氧嘌呤寡聚物(deoxypurine oligomer)和脫氧嘧啶寡聚物(deoxypyrimidine oligomer)引起的電流改變差別并不大,只有不足5%。而且這種電流改變差異是由10~15個(gè)核苷酸(占據(jù)了α溶血素蛋白的跨膜區(qū))引起的,它無(wú)法 區(qū)別單個(gè)核苷酸引起的電流改變之間的差異(圖8a)。

雖然這些最初的納米孔實(shí)驗(yàn)并沒(méi)有獲得預(yù)期結(jié)果,但它們至少顯示出納米孔在單分子技術(shù)方面的應(yīng)用優(yōu)勢(shì),例如高度的敏感性,同時(shí)也帶動(dòng)了納米孔核酸分析技術(shù)的研究熱潮,并在理論及實(shí)驗(yàn)方面取得了一些成果。自從發(fā)現(xiàn)在電場(chǎng)力作用下,長(zhǎng)達(dá)1000個(gè)堿基的單鏈DNA分子也能通過(guò)納米孔之后,人們就更加堅(jiān)信, 廉價(jià)的納米孔測(cè)序技術(shù)一定會(huì)成為現(xiàn)實(shí)。與此同時(shí),與納米孔有關(guān)的研究更是大大增加。曾有人使用液態(tài)雙分子層(lipid bilayer)構(gòu)建蛋白質(zhì)孔道,最近還出現(xiàn)了固態(tài)材料或塑料材料的納米孔道。事實(shí)上,一直為10年內(nèi)完成1,000美元檢測(cè)個(gè)人基因組這一目標(biāo)努力的美國(guó)國(guó)家人類(lèi)基因組研究所(NHGRI),已經(jīng)給納米孔測(cè)序研究提供了好幾筆經(jīng)費(fèi)了(詳見(jiàn)http://grants.nih.gov/grants /guide/rfa-files/RFA-HG-04-003.html,圖9)。

盡管納米孔技術(shù)是好幾項(xiàng)單分子應(yīng)用技術(shù)的基礎(chǔ),但DNA鏈具有的長(zhǎng)度還是成為采用納米孔技術(shù)進(jìn)行測(cè)序的一個(gè)障礙。此外,隨著目前合成測(cè)序法 (sequencing by synthesis, SBS)技術(shù)正在不斷發(fā)展,并且費(fèi)用越來(lái)越低,那是否還有必要繼續(xù)研究納米孔測(cè)序技術(shù)呢?這也正是目前大家對(duì)納米孔測(cè)序技術(shù)的一個(gè)疑問(wèn),人們希望更多領(lǐng)域的科學(xué)家和研究人員可以共同參與討論,提出合理的解決方法。

1. 納米孔測(cè)序技術(shù)的特點(diǎn)

納米孔測(cè)序技術(shù)一個(gè)最突出的優(yōu)勢(shì)就是便宜,尤其是在樣品準(zhǔn)備階段幾乎不需要耗費(fèi)什么試劑,而且也不需要像別的測(cè)序方法那樣使用核苷酸、聚合酶或連接 酶等等。因此,納米孔測(cè)序技術(shù)要比傳統(tǒng)的直接測(cè)序(direct strand sequencing)、Sanger合成測(cè)序法或其它方法的費(fèi)用低得多,也比最近開(kāi)發(fā)出的大型高通量測(cè)序儀,如羅氏公司的454、Illumina公司 的Solexa、Applied Biosystems公司的SOLiD、Helicos公司的HelioScope等要便宜。與上述所有技術(shù)都不同,納米孔測(cè)序技術(shù)根本無(wú)需純化的熒光素試劑,也無(wú)需進(jìn)行DNA擴(kuò)增,因此不僅省去了試劑的費(fèi)用,還省去了克隆、擴(kuò)增的時(shí)間,真正做到了省時(shí)又省錢(qián)。

一臺(tái)理想的使用電檢測(cè)技術(shù)的商業(yè)化測(cè)序儀需要由以下兩個(gè)部分組成:一次性的檢測(cè)芯片(disposable detector chip),該芯片整合有納米孔芯片、微流體系統(tǒng)、電子探針系統(tǒng)等;以及一套可以控制試驗(yàn)操作并分析試驗(yàn)數(shù)據(jù)的便攜式工作系統(tǒng)。假設(shè)一個(gè)芯片能對(duì)一個(gè)人的 全基因組進(jìn)行測(cè)序,那么這一次檢測(cè)的費(fèi)用就只包括制備DNA樣品的費(fèi)用、設(shè)備使用費(fèi)和一次性芯片的費(fèi)用。

理論上說(shuō),使用納米孔測(cè)序儀只需要用不到1μg(即從不到106個(gè)細(xì)胞中提取的不到106個(gè)基因組拷貝)的基因組DNA樣品就可以獲得六倍的序列覆蓋量。不過(guò),在實(shí)際操作過(guò)程中可能需要108個(gè)基因組拷貝,這樣才能保證在25μl~50μl的操作體系中達(dá)到足夠的檢測(cè)濃度。

人類(lèi)108個(gè)基因組拷貝大約相當(dāng)于700μg人類(lèi)二倍體基因組組織,這點(diǎn)DNA可以用商業(yè)化的試劑盒直接從血液等組織中抽提出來(lái),抽提一次的費(fèi)用只需要不到40美元。

在納米孔測(cè)序過(guò)程中,長(zhǎng)約6×109的二倍體哺乳動(dòng)物基因組會(huì)被分割成長(zhǎng)約50,000堿基的單鏈DNA分子分別進(jìn)行測(cè)序。這種一次檢測(cè)50,000個(gè)堿基的能力大大方便了后續(xù)序列拼接階段的工作。如果納米孔測(cè)序技術(shù)真的能夠只需要一點(diǎn)點(diǎn)樣品,同時(shí)還不需要對(duì)樣品進(jìn)行標(biāo)記等操作的話(huà),那么檢測(cè)一次的費(fèi)用就只包括芯片的費(fèi)用和儀器使用費(fèi),這絕對(duì)不會(huì)超過(guò)1,000美元。不過(guò),要實(shí)現(xiàn)這一美好的目標(biāo),目前還存在幾個(gè)問(wèn)題需要克服。

2. 發(fā)展納米孔測(cè)序技術(shù)可能會(huì)碰到的問(wèn)題

現(xiàn)在,基于納米孔技術(shù)已經(jīng)發(fā)展出了好幾種檢測(cè)堿基的方法。下面將列舉幾種,目的不是介紹測(cè)序方法,而是為了詳細(xì)說(shuō)明納米孔測(cè)序技術(shù)會(huì)碰到的主要問(wèn)題。

當(dāng)單鏈DNA穿過(guò)生物納米孔道或固態(tài)納米孔道時(shí)檢測(cè)電流。盡管如上所述,已經(jīng)有試驗(yàn)清楚證明了可以通過(guò)檢測(cè)電流強(qiáng)度改變的情況來(lái)區(qū)分不同的多聚核苷酸分子,但到目前為止,還沒(méi)有一種生物納米孔或人工納米孔能有一個(gè)非常合適的幾何學(xué)結(jié)構(gòu),可以讓人們?cè)诙嗑酆塑账岱肿哟┻^(guò)納米孔時(shí)檢測(cè)單個(gè)核苷酸造成的電 流改變。人們目前可用的這些納米孔都太長(zhǎng),沒(méi)有一個(gè)長(zhǎng)度短于5nm,而太長(zhǎng)的納米孔通道會(huì)造成一次有10~15個(gè)堿基的單鏈DNA分子穿過(guò),所以無(wú)法對(duì)單個(gè)堿基分子進(jìn)行檢測(cè)。即使“無(wú)限短”的通道也無(wú)法達(dá)到所需的分辨率,這是由于電場(chǎng)區(qū)域決定了通道電子讀出的區(qū)域,電場(chǎng)區(qū)域會(huì)向通道兩側(cè)各擴(kuò)展大約一個(gè)通道 直徑的長(zhǎng)度。因?yàn)榧{米孔的直徑要能允許單鏈DNA分子(直徑約1.5nm)通過(guò),而電流的分辨率只能達(dá)到3nm,這就決定了只檢測(cè)電流強(qiáng)度的變化無(wú)法達(dá)到 “空間”上的分辨率要求。而且單鏈核苷多聚物在150mV的電場(chǎng)中,以大約1個(gè)核苷酸/μs的速度通過(guò)納米孔。但是要達(dá)到在皮安(pA)電流水平上檢測(cè)單 個(gè)核苷酸的精度就需要延緩單鏈核酸分子通過(guò)納米孔的速度,至少要超過(guò)1msec以上。

雖然使用納米孔無(wú)法區(qū)分DNA鏈中相隔僅0.4nm的相鄰核苷酸,但如果納米孔技術(shù)和雜交測(cè)序技術(shù)結(jié)合起來(lái),那么測(cè)得的粗略的電流改變信息就能用于核酸分子測(cè)序。所謂雜交測(cè)序,就是通過(guò)大量已知序列的探針與待測(cè)樣品雜交,然后根據(jù)產(chǎn)生的雜交圖譜排列出靶DNA的序列。不過(guò)在雜交測(cè)序時(shí),與待測(cè)樣品結(jié) 合的探針的位置和數(shù)量都必須弄清楚,但是僅靠雜交測(cè)序是不能得到這些信息的。而納米孔測(cè)序技術(shù)就很容易區(qū)分單鏈DNA和雙鏈DNA了,所以也就能很好地判 斷被探針雜交的位置和數(shù)目。因此,如果能將這兩種技術(shù)結(jié)合起來(lái),就能實(shí)現(xiàn)準(zhǔn)確的測(cè)序了。實(shí)際上,這也正是雜交輔助納米孔道測(cè)序技術(shù) (hybridization-assisted nanopore sequencing, HANS)的原理。不過(guò),目前HANS技術(shù)還存在兩大問(wèn)題(表12)。

依次從DNA鏈末端切割堿基,以檢測(cè)這些堿基逐個(gè)通過(guò)納米孔道時(shí)引起的電流變化,用這種新方法來(lái)測(cè)序。Keller等人當(dāng)初認(rèn)識(shí)到可以使用核酸外切 酶逐次水解DNA末端的脫氧單磷酸核苷(deoxynucleoside monophosphate, dNMP),然后逐個(gè)識(shí)別這些dNMP,這樣就可以對(duì)DNA鏈進(jìn)行測(cè)序了。但當(dāng)時(shí)苦于沒(méi)有好的辦法確認(rèn)這些未被標(biāo)記的dNMP,所以阻礙了這種測(cè)序技術(shù)的 發(fā)展?,F(xiàn)在,納米孔技術(shù)的發(fā)展給這種測(cè)序技術(shù)帶來(lái)了重生的曙光。研究發(fā)現(xiàn),α溶血素與一個(gè)氨基化環(huán)糊精配體(aminocyclodextrin adaptor)結(jié)合之后(即在α溶血素孔道內(nèi)共價(jià)結(jié)合上一個(gè)環(huán)糊精),就可以識(shí)別未被標(biāo)記的堿基了?;谶@項(xiàng)研究成果,英國(guó)牛津納米孔技術(shù)公司 (Oxford Nanopore Technologies)最近成功地將一個(gè)氨基化環(huán)糊精配體共價(jià)結(jié)合到了α溶血素孔道內(nèi)(圖8b)。當(dāng)一個(gè)dNMP通過(guò)固定于脂質(zhì)雙分子層中的α溶血素 氨基化環(huán)糊精孔道時(shí),跨孔電流強(qiáng)度會(huì)發(fā)生四種改變,即每一種dNMP通過(guò)納米孔道時(shí)都會(huì)引起一種特定形式的電流強(qiáng)度改變,因此,可以通過(guò)測(cè)量電流強(qiáng)度的改變來(lái)判斷究竟是哪一種堿基(A、T、G、C)通過(guò)了納米孔。另外,由于電流強(qiáng)度的改變非常明顯(因?yàn)閴A基堵塞納米孔和未堵塞之間,電流強(qiáng)度差異特別大), 所以也就可以準(zhǔn)確的判斷出有多少個(gè)堿基通過(guò)納米孔了?,F(xiàn)在,對(duì)于這種納米孔測(cè)序技術(shù)來(lái)說(shuō),最重要的是如何保證被核酸外切酶依次切下來(lái)的堿基能100%依次 通過(guò)納米孔。由于該方法采用納米孔來(lái)識(shí)別釋放的dNMP,而不是通過(guò)對(duì)完整的DNA鏈上的堿基進(jìn)行鑒別,因此,這種逐次“閱讀”堿基的方式能否如實(shí)反映 DNA鏈中堿基的真實(shí)順序就顯得尤其重要了。最后,選擇哪種核酸外切酶也是很重要的一步??梢圆捎脤⒑怂崦负挺寥苎鼗蚣艚釉谝黄鸬闹亟M片段,或者采用 化學(xué)方法將核酸酶與α溶血素結(jié)合在一起,從而確保釋放的dNMP能夠通過(guò)納米孔。這種核酸外切酶應(yīng)該具有可持續(xù)性、檢測(cè)時(shí)低噪音,以及同時(shí)能在高鹽環(huán)境下工作的特性。最好這種核酸外切酶能夠切割基因組雙鏈DNA,而且易于操作。

納米孔測(cè)序技術(shù)使用了信號(hào)轉(zhuǎn)換技術(shù)和光學(xué)讀出技術(shù)。納米孔測(cè)序技術(shù)還有另一個(gè)發(fā)展方向,就是將DNA序列信息轉(zhuǎn)換成兩種顏色的圖形信息,然后再通過(guò) 光學(xué)讀出技術(shù)進(jìn)行檢測(cè)、分析。然而,要將熒光探針標(biāo)記到DNA鏈中的每一個(gè)堿基上是非常困難的工作。于是人們開(kāi)發(fā)出了一種新的方法,用兩種不同的12堿基 寡聚體(12-mer oligos)——A和B,按照四種不同的組合方式(AB、BA、AA、BB)將A、B組合起來(lái)(圖8c),這樣就可以對(duì)DNA鏈中的每一個(gè)核苷酸進(jìn)行替換了。因?yàn)閱蝹€(gè)核苷酸通過(guò)納米孔的速度實(shí)在是太快了,完全無(wú)法進(jìn)行檢測(cè),所以將單核苷酸替換成這種長(zhǎng)一點(diǎn)的寡聚體,可以減緩?fù)ㄟ^(guò)速度,方便檢測(cè)。同時(shí),通 過(guò)這種信號(hào)轉(zhuǎn)化還將DNA鏈中原本的四種信號(hào)A、T、G、C簡(jiǎn)化成了A、B兩種信號(hào)。

挪威Lingvitae公司(

http://www.lingvitae.com/DPTutorial.php)已經(jīng)成功開(kāi)發(fā)出了一種自動(dòng)化的、 大規(guī)模并行處理方法。該方法可以在24小時(shí)內(nèi)將一個(gè)人類(lèi)基因組序列轉(zhuǎn)化成由24bp寡聚體序列組成的“新”序列?,F(xiàn)在,他們還在繼續(xù)努力,希望能開(kāi)發(fā)出更 便宜、出錯(cuò)率更低、寡聚體片段更長(zhǎng),同時(shí)耗時(shí)更短的信號(hào)轉(zhuǎn)化方法。進(jìn)行這種信號(hào)轉(zhuǎn)化看起來(lái)是增加了一個(gè)步驟,這好像與納米孔測(cè)序的初衷(不需要進(jìn)行標(biāo)記等 額外操作步驟)相悖,但實(shí)際情況是,由于增加了這個(gè)步驟極大地簡(jiǎn)化了后續(xù)的信號(hào)(序列)讀取工作,而這點(diǎn)恰恰是令其它測(cè)序方法頭疼不已的大麻煩。

使用兩種能分別與A、B互補(bǔ)的12bp長(zhǎng)的“分子信標(biāo)”(molecular beacon)(詳見(jiàn)

http://www.molecular-beacons.org/Introduction.html,雜交過(guò)程見(jiàn)圖10)與經(jīng) 過(guò)上述信號(hào)轉(zhuǎn)化之后形成的新DNA鏈雜交。分子信標(biāo)由于自我猝滅(self-quenching)機(jī)制的作用,在溶液中的熒光背景信號(hào)極低(圖8c)。

同樣,當(dāng)分子信標(biāo)與新DNA鏈雜交之后,由于臨近信標(biāo)間存在相互猝滅作用,所以熒光信號(hào)依然很弱(圖8c)。但當(dāng)雜交鏈通過(guò)直徑不到2nm的納米孔 時(shí),與新DNA鏈互補(bǔ)結(jié)合的寡聚體會(huì)脫落,并釋放出熒光信號(hào),只需依次檢測(cè)這些熒光信號(hào)就能對(duì)原始DNA鏈進(jìn)行測(cè)序。將高密度納米孔芯片技術(shù)、光學(xué)讀取技 術(shù)、高分辨率電子倍增電荷偶聯(lián)攝像技術(shù)(high resolution electron-multiplying charge-coupled device camera)結(jié)合起來(lái),就可以同時(shí)并行處理大量數(shù)據(jù),大大提高測(cè)序速度。由于納米孔不需要借助電子吸附(electrical contact)、表面修飾(urface modification)或轉(zhuǎn)位過(guò)程(translocation process)等步驟就可以裝載到芯片上,因此可以得到極高密度的納米孔芯片?,F(xiàn)在的納米加工技術(shù)(nanofabrication)已經(jīng)可以達(dá)到上述 要求了。不過(guò),目前要生產(chǎn)出直徑在1.7nm~2.0nm的高密度納米孔芯片還存在一定困難。

當(dāng)單鏈DNA通過(guò)嵌有探針的固態(tài)納米孔時(shí)檢測(cè)橫向隧穿電流或電容。有這樣一種理論認(rèn)為,當(dāng)單鏈DNA通過(guò)嵌有探針的固態(tài)納米孔時(shí),通過(guò)每一個(gè)堿基的 橫向電流都各不相同,故根據(jù)電流情況判斷出是哪種堿基通過(guò),也就能對(duì)ssDNA進(jìn)行測(cè)序了(圖8d)。這種方法與前面所述的因?yàn)槊糠N堿基堵塞了納米孔道導(dǎo) 致電流減小的幅度不同來(lái)對(duì)堿基進(jìn)行判斷的方法不同,它是檢測(cè)橫向裝載在納米孔道中的一對(duì)電極對(duì)通過(guò)納米孔的堿基施加的橫向電流來(lái)判斷究竟是哪種堿基通過(guò) 的。雖然在試驗(yàn)中該方法的效果很不錯(cuò),但是還是要介紹一下有關(guān)該方法的幾種不同觀點(diǎn)。

與在掃描隧道顯微鏡(scanning tunneling microscope, STM)中一樣,使用合適的探針(電極),可以得到納安級(jí)(nano-ampere)的電子隧穿電流。使用這種納安級(jí)的電流檢測(cè)堿基的速度比在直徑不到 3nm的納米孔中使用皮安級(jí)的電流檢測(cè)要快得多。雖然這種方法只需使用納米孔和電流檢測(cè)設(shè)備,并有望成為最便宜、最快速的測(cè)序技術(shù),但它也面臨著四種主要的挑戰(zhàn)(表13)。

不過(guò),現(xiàn)在使用單壁碳納米管(single-walled carbon nanotube)就有望解決上述第二和第三個(gè)挑戰(zhàn),如果對(duì)碳納米管進(jìn)行合適的改造甚至還能解決第一個(gè)挑戰(zhàn)。納米管能以一種獨(dú)特的方式和方向與堿基結(jié)合, 而且每一個(gè)堿基的結(jié)合活化焓(binding activation enthalpie)為了便于控制DNA鏈通過(guò)納米管的速度,也都處于可被溫度、離子強(qiáng)度或偏置電壓調(diào)控的范圍之內(nèi)。

要借助橫向隧穿電流來(lái)分辨堿基還有一種方法,就是在化學(xué)修飾的金屬電極和待測(cè)堿基之間形成堿基特異性的氫鍵。Ohshiro和Umezawa發(fā)現(xiàn), 在STM中如果金屬探針(電極)被A、G、C、U的硫氫基(thiol)修飾之后,電極和堿基之間的隧穿電流會(huì)被極大地放大。他們發(fā)現(xiàn),使用經(jīng)胞嘧啶修飾 過(guò)的探針(電極),可以區(qū)分出序列TTTTTTTTGTTTTTTTTT和序列TTTTTTTGGTTTTTTTTT?;贠hshiro和 Umezawa的工作,Lindsay等人猜想,是否可以使用經(jīng)兩種不同化學(xué)修飾方法加工過(guò)的電極,令其中一組電極能結(jié)合核苷酸的磷酸基團(tuán),而另一對(duì)電極能結(jié)合核苷酸的堿基基團(tuán)(圖11)。這樣,在每一個(gè)核苷酸通過(guò)納米孔中的“閱讀器(電極)”時(shí)就會(huì)通過(guò)“電流距離”(current-distance) 而不是通過(guò)靜態(tài)的“隧穿電流”而被檢測(cè)出來(lái)。A、C、G、T四種“閱讀器”中的每一種都會(huì)借助上面的功能基團(tuán)與通過(guò)納米孔的同一種堿基形成氫鍵。將這四種 閱讀器鏈接在一起形成“DNA鏈”就可以對(duì)dsDNA鏈進(jìn)行測(cè)序了。不過(guò),要同時(shí)將四條dsDNA鏈穿過(guò)四個(gè)閱讀器還是一大難題。

還有人提出可以將金屬氧化硅電容和納米孔技術(shù)結(jié)合在一起通過(guò)對(duì)DNA進(jìn)行靜電檢測(cè)以達(dá)到測(cè)序的目的。透射電鏡(transmission electron microscope, TEM)發(fā)射的電子束可以將納米孔固定到兩層摻雜硅構(gòu)成的膜上(中間被厚約5nm的SiO2絕緣層隔開(kāi))。當(dāng)有DNA鏈穿過(guò)納米孔時(shí),可以檢測(cè)到兩層硅膜間電容的靜電勢(shì)和電壓發(fā)生了改變。仿真結(jié)果表明,A、C、G、T都有其各自獨(dú)特的電容信號(hào),因此從理論上來(lái)說(shuō)也可以通過(guò)這種方法進(jìn)行測(cè)序。在早期的一次試驗(yàn)中發(fā)現(xiàn)能夠檢測(cè)到DNA鏈通過(guò)納米孔時(shí)引起的電壓變化,但是由于時(shí)間太短,還無(wú)法區(qū)分出單個(gè)的堿基。目前,該方法面臨的主要問(wèn)題也是如何控制堿基通過(guò)納米孔時(shí)的速度和方向。

3. 獲取較長(zhǎng)的測(cè)序長(zhǎng)度

納米孔測(cè)序技術(shù)還有一個(gè)非常吸引人的優(yōu)勢(shì),那就是測(cè)序距離長(zhǎng)。因?yàn)榧{米孔測(cè)序儀對(duì)通過(guò)的每個(gè)堿基進(jìn)行測(cè)序,與前后的測(cè)序結(jié)果都無(wú)關(guān)。因此從原則上來(lái)說(shuō),使用納米孔測(cè)序技術(shù),只要DNA鏈不發(fā)生斷裂,并且能一直通過(guò)納米孔,就可以一直檢測(cè)下去。到目前為止,人們已經(jīng)證明,長(zhǎng)達(dá)25kb的ssDNA能夠一次性通過(guò)生物納米孔,長(zhǎng)達(dá)5.4kb的ssDNA能夠一次性通過(guò)固態(tài)納米孔。因此,如果檢測(cè)技術(shù)能得到進(jìn)一步的改善(能檢測(cè)快速通過(guò)納米孔的堿基),納米孔測(cè)序技術(shù)還是具有非常好的應(yīng)用前景的。雖然現(xiàn)在還無(wú)法確切獲悉納米孔測(cè)序技術(shù)的準(zhǔn)確度有多高,但可以確定插入、缺失等序列錯(cuò)誤不會(huì)影響片段的讀出長(zhǎng)度,因?yàn)橄嘁圃讵?dú)立的單分子讀序中并不是一個(gè)問(wèn)題。只要所測(cè)序列是隨機(jī)的,而不是系統(tǒng)的或具有位點(diǎn)依賴(lài)性的,那么足夠高的序列覆蓋率便可以保證任何水平的準(zhǔn)確度。

此外,雖然目前的第二代測(cè)序儀的測(cè)序長(zhǎng)度較短,但它們具有高通量的優(yōu)勢(shì),因此可以將納米孔測(cè)序技術(shù)和這些第二代測(cè)序技術(shù)結(jié)合起來(lái),以彌補(bǔ)第二代測(cè)序儀在測(cè)序長(zhǎng)度方面的不足。

考慮到在未來(lái)的測(cè)序技術(shù)發(fā)展趨勢(shì)中,測(cè)序長(zhǎng)度是至關(guān)重要的一個(gè)指標(biāo),因此還需要進(jìn)一步研究,以弄清納米孔測(cè)序技術(shù)在檢測(cè)ssDNA時(shí)測(cè)序的極限長(zhǎng)度 是多少。納米孔測(cè)序技術(shù)在檢測(cè)單鏈寡聚物(不到50個(gè)堿基)時(shí)可以進(jìn)行高通量檢測(cè),此時(shí)核酸鏈通過(guò)α溶血素納米孔的速度大約是5.8個(gè)低聚物/sec μM。因?yàn)楹怂徭湸蠓肿哟┻^(guò)納米孔的速度與其在溶液中的摩爾濃度有關(guān),而摩爾濃度又不能太高以免溶液太粘稠,因此還需要進(jìn)行試驗(yàn)驗(yàn)證50kb長(zhǎng)的ssDNA是否能以一個(gè)合適的速度通過(guò)納米孔。已經(jīng)有幾篇論文報(bào)道指出,使用直徑約3nm~6nm的納米孔能夠檢測(cè)長(zhǎng)約3kb~10kb的ssDNA及 dsDNA片段(核酸分子的濃度在10nM~20nM之間),不過(guò)文章中都沒(méi)有提及核酸分子通過(guò)納米孔的速度。此外,雖然Branton等人已經(jīng)證實(shí)了48kb的λ-DNA可以通過(guò)納米孔,但是使用最新的納米孔捕獲及再捕獲技術(shù)對(duì)長(zhǎng)基因片段進(jìn)行測(cè)序時(shí)的效率更高。納米孔捕獲及再捕獲技術(shù)對(duì)于提高測(cè)序質(zhì)量 非常重要,因?yàn)榻柚@種技術(shù)就可以對(duì)同一個(gè)堿基進(jìn)行反復(fù)測(cè)序。當(dāng)堿基初次通過(guò)納米孔時(shí),如果檢測(cè)信號(hào)質(zhì)量不高,實(shí)時(shí)監(jiān)測(cè)軟件就會(huì)“命令”該堿基再次通過(guò)納 米孔并重新接受檢測(cè),直至獲得滿(mǎn)意的信號(hào)為止,而不需要重新準(zhǔn)備樣品,從頭再測(cè)一次。

4. 控制DNA通過(guò)納米孔

DNA高速通過(guò)納米孔的特性使得高速測(cè)序成為可能,但同時(shí)這種高速度也正是很多納米孔測(cè)序技術(shù)的“阿喀琉斯之踵(‘Achilles’ heel,意即弱點(diǎn))”。因?yàn)樗俣忍?,檢測(cè)的信號(hào)質(zhì)量就不高,甚至很多小的信號(hào)根本就檢測(cè)不到。在120mV的條件下,DNA會(huì)以每個(gè)堿基 /1μs~20μs的速度通過(guò)α溶血素納米孔。這就需要探測(cè)器的檢測(cè)帶寬達(dá)到MHz級(jí),才能檢測(cè)到皮安級(jí)的電流強(qiáng)度。

當(dāng)DNA在電泳作用下通過(guò)納米孔時(shí),由于擴(kuò)散作用的影響,降低了測(cè)序的質(zhì)量。由于DNA分子的隨機(jī)運(yùn)動(dòng)使得它通過(guò)納米孔的時(shí)間,即通過(guò)時(shí)間 (transit time)的跨度非常大(這一點(diǎn)從理論上和試驗(yàn)上都已經(jīng)證實(shí)了),因此,人們無(wú)法判斷有多少堿基通過(guò)了納米孔。而且,由于跨孔DNA分子與納米孔表面間存在的非特異性的相互作用還會(huì)受到非連續(xù)性的粘滑現(xiàn)象(discontinuous stick-slip phenomena)影響,所以相互作用會(huì)發(fā)生改變。這種相互作用改變的本質(zhì)和頻率會(huì)引起“逃避時(shí)間(escape time,解離時(shí)間)”發(fā)生非泊松分布(non-Poisson distribution),于是,同一種堿基分子通過(guò)納米孔時(shí)的通過(guò)時(shí)間也會(huì)不同。而且,如果堿基分子通過(guò)納米孔的時(shí)間小于平均通過(guò)時(shí)間,那么它極有可能被漏檢。

鑒于此,對(duì)于納米孔測(cè)序技術(shù)來(lái)說(shuō),最為重要的一點(diǎn)就是如何控制并減慢DNA分子通過(guò)納米孔的速度,同時(shí)盡量消除由于納米孔表面相互作用給DNA分子 跨孔動(dòng)力學(xué)上造成的波動(dòng)現(xiàn)象。降溫和增加溶液的粘稠度可以在一定程度上減慢DNA分子通過(guò)納米孔的速度,但這兩種方法都不能消除因納米孔表面相互作用造成 的跨孔動(dòng)力學(xué)波動(dòng)現(xiàn)象。真正能降低DNA跨孔速度的方法見(jiàn)表14。

上述這些限速步驟所達(dá)到的速度都在每個(gè)堿基/數(shù)毫秒級(jí),同時(shí)還都會(huì)受到離子強(qiáng)度、溫度以及跨孔偏置電壓的影響。

最理想的狀態(tài)是,如果能發(fā)現(xiàn)一種電信號(hào)來(lái)代表堿基間的“空隙”,那就能清楚地知道有多少個(gè)堿基通過(guò)了納米孔了。這種信號(hào)對(duì)于分析跨孔動(dòng)力學(xué)和堿基孔 內(nèi)停留時(shí)間等都具有很高的使用價(jià)值,而且可以據(jù)此來(lái)決定測(cè)序儀的檢測(cè)帶寬和其它參數(shù)。但在該信號(hào)出現(xiàn)之前,人們還需弄清楚DNA的跨孔動(dòng)力學(xué),同時(shí)還要開(kāi) 發(fā)出控制DNA跨孔速度的辦法。納米孔制造技術(shù)的發(fā)展使得我們能夠制造出特殊的納米孔,這些納米孔的背景噪聲很低,而且能夠調(diào)控DNA與納米孔表面的相互 作用。最終,將DNA跨孔速度控制技術(shù)、高帶寬技術(shù)、低噪聲檢測(cè)技術(shù)結(jié)合在一起,就能制造出高速納米孔測(cè)序儀了。

5. 生物納米孔的穩(wěn)定性問(wèn)題和固態(tài)納米孔的制造問(wèn)題

溶血素七聚體(hemolysin heptamer)是最常用于在脂質(zhì)雙分子層中制造生物納米孔的材料,它性質(zhì)非常穩(wěn)定。但脂質(zhì)雙分子層的性質(zhì)卻不那么穩(wěn)定,尤其是液態(tài)脂質(zhì)雙分子層,制造起來(lái)極難且費(fèi)時(shí)。

Bayley等人發(fā)現(xiàn)包裹在兩層薄瓊脂糖中的裝載有α溶血素納米孔的雙分子層非常穩(wěn)定,可以被裝到特氟隆薄膜(Teflon film)中儲(chǔ)存數(shù)周之久。同時(shí)他們還發(fā)現(xiàn),α溶血素納米孔可以被頂端是瓊脂糖的塑料或玻璃探針裝載到上述雙分子層組成的芯片上。另一種穩(wěn)定雙分子層的方 法是使用納米級(jí)的孔徑而不是微米級(jí)的孔徑。試驗(yàn)證明,在玻璃毛細(xì)管末端的直徑為100nm~1,000nm的雙分子層在包被有特殊硅烷化劑 (silanizing agent)的條件下能保持穩(wěn)定達(dá)兩周以上。

使用離子束雕刻(ion beam sculpting)、電子束鉆孔(e-beam drilling)和原子層沉積(atomic layer deposition)等方法可以在氮化硅、氧化硅或其它金屬氧化物等介質(zhì)上“制作出”穩(wěn)定的、有功能的固態(tài)納米孔,不過(guò)要得到直徑在 1.5nm~2.0nm的納米孔芯片還是一件非常困難的工作?,F(xiàn)在,人們已經(jīng)可以制作出裝載有用于檢測(cè)隧穿電流探針的納米孔,但是目前的納米孔制作工藝非 常繁瑣,速度慢又耗費(fèi)人力,而且制作出的產(chǎn)品還常常無(wú)法達(dá)到應(yīng)用的要求。毫無(wú)疑問(wèn),隨著納米電子學(xué)領(lǐng)域的不斷發(fā)展,人們一定會(huì)制造出高質(zhì)量的納米孔芯片。但是,直到納米孔測(cè)序技術(shù)被證明是可行的那一天為止,納米孔測(cè)序研究領(lǐng)域的科學(xué)家都會(huì)一直面臨一個(gè)問(wèn)題,那就是只能使用科研設(shè)備,而不可能使用大量生產(chǎn)的商業(yè)化設(shè)備。

對(duì)于某些納米孔測(cè)序技術(shù)來(lái)說(shuō),最穩(wěn)定的納米孔可能是固態(tài)納米孔和α溶血素納米孔的“雜交體”,即在氮化硅之類(lèi)的人工膜上做出5nm左右的納米孔,同時(shí)也裝載上α溶血素納米孔。如果這種方法可行,那么該雜交納米孔就既有高度的重復(fù)性又有無(wú)限的穩(wěn)定性。

6. 結(jié)論

如果納米孔測(cè)序技術(shù)能夠成功,那么它將是非常好的一種新的測(cè)序技術(shù),因?yàn)樗哂幸韵聝?yōu)點(diǎn)(表15)。

因此,一個(gè)成功的納米孔測(cè)序儀其測(cè)序費(fèi)用應(yīng)該非常低廉,極有可能達(dá)到NIH設(shè)定的只用1,000美元就能完成個(gè)人基因組測(cè)序的目標(biāo)。同時(shí),納米孔測(cè)序儀本身不會(huì)太貴。如果能在一個(gè)測(cè)序芯片上整合100個(gè)納米孔以及相應(yīng)的微流體系統(tǒng)和電子探針系統(tǒng),那么對(duì)一個(gè)人類(lèi)基因組進(jìn)行六倍覆蓋率的測(cè)序也只需要一天的時(shí)間。不過(guò),納米孔測(cè)序技術(shù)還是面臨著很大的問(wèn)題。短期內(nèi)的一個(gè)主要問(wèn)題就是如何減慢DNA通過(guò)納米孔的速度,使每一個(gè)堿基通過(guò)納米孔的時(shí)間從微秒級(jí)上升至毫秒級(jí)。

最近,有研究結(jié)果表明DNA酶處理能起到減緩的作用。如果納米孔測(cè)序儀用到了溶血素七聚體,那么就還需要與之相配套的穩(wěn)定載體。目前,這方面的工作 也取得了一定的進(jìn)展。不過(guò)從長(zhǎng)遠(yuǎn)來(lái)說(shuō),人工合成的固態(tài)納米孔似乎更適合商用。人們可以通過(guò)監(jiān)測(cè)隧穿電流或電容的改變來(lái)“讀取”每一個(gè)通過(guò)納米孔的堿基,不 過(guò)這種方法是否切實(shí)可行還需要進(jìn)一步驗(yàn)證。還有一個(gè)一直存在的問(wèn)題是:不論用哪種檢測(cè)方法,DNA分子在通過(guò)納米孔時(shí)發(fā)生的隨機(jī)運(yùn)動(dòng)都會(huì)增加背景噪聲。

綜上所述,納米孔測(cè)序技術(shù)具有非常誘人的應(yīng)用前景,因此我們還得繼續(xù)努力研究下去。而且隨著研究的深入,我們?cè)絹?lái)越堅(jiān)信,納米孔測(cè)序技術(shù)一定會(huì)成功的。

原文檢索:Daniel Branton, David W Deamer, Andre Marziali et al. (2009) The potential and challenges of nanopore sequencing. Nature Biotechnology26(10): 1146-1153.

五、更多閱讀

1. 核糖體印記與深度測(cè)序技術(shù)

將核糖體圖譜(ribosome profiling)和深度測(cè)序(deep sequencing)相結(jié)合,研究人員可以從基因組水平監(jiān)測(cè)蛋白質(zhì)的翻譯狀況。

深度測(cè)序的強(qiáng)大功能對(duì)生物學(xué)研究的各個(gè)領(lǐng)域都產(chǎn)生了極大的影響。在諸如全基因組測(cè)序等方面,新技術(shù)的高效性和經(jīng)濟(jì)性使人們得以以一種以前無(wú)法想象的方式進(jìn)行試驗(yàn)研究。而在另一些情況下,例如RNA測(cè)序時(shí),借助深度測(cè)序可以進(jìn)行更多的定量分析,獲得更大的動(dòng)態(tài)范圍。在另一些研究中,例如最近由美國(guó)加州大學(xué)(University of California)的Jonathan Weissman小組發(fā)表的有關(guān)翻譯圖譜(translational profiling)的研究中報(bào)道的那樣,深度測(cè)序不僅是一個(gè)有效的定量手段,同時(shí)還能提供很多有用的新信息。

使用核酸酶消化mRNA時(shí),在翻譯過(guò)程中發(fā)揮作用的核糖體結(jié)合并保護(hù)了大約30bp 的mRNA片段。Weissman等人將細(xì)胞中這些被保護(hù)的mRNA片段構(gòu)建成DNA文庫(kù),再使用Illumina公司的測(cè)序儀對(duì)文庫(kù)中所有的片段進(jìn)行測(cè)序,最終得到了一幅有關(guān)細(xì)胞中蛋白質(zhì)翻譯情況的完整“畫(huà)卷”。

這種方法可以應(yīng)用于很多方面。首先,它能廣泛地用于蛋白質(zhì)組研究當(dāng)中。正如 Weissman說(shuō)道的那樣,“對(duì)于像人類(lèi)一樣復(fù)雜的基因組,你真的無(wú)法解釋清楚細(xì)胞表達(dá)出來(lái)的多肽是什么。而這種新方法剛好給了你一個(gè)客觀的、全面的機(jī) 會(huì)去弄清楚這些多肽?!爆F(xiàn)在,Weissman等人正在使用這種新方法研究酵母,因?yàn)榻湍副容^簡(jiǎn)單,同時(shí)也被研究得比較透徹,因此相對(duì)來(lái)說(shuō)比較容易研究。 但是從理論上來(lái)說(shuō),該方法是可以應(yīng)用到其它任何一種物種中的。另外,將該技術(shù)與標(biāo)記有抗原表位的核糖體(epitope-tagged ribosomes)結(jié)合使用,還有可能用于研究組織特異性的蛋白質(zhì)翻譯(tissue-specific translation)。Weissman說(shuō)道:“我認(rèn)為該技術(shù)會(huì)將分子神經(jīng)解剖學(xué)(molecular neuroanatomy)一類(lèi)的學(xué)科引向新的紀(jì)元?!?/p>

其次,在檢測(cè)蛋白質(zhì)表達(dá)情況時(shí),使用核糖體圖譜技術(shù)相比檢測(cè)mRNA豐度來(lái)說(shuō)更準(zhǔn) 確。研究人員借助核糖體圖譜技術(shù)為胞內(nèi)數(shù)千種mRNA構(gòu)建了核糖體印記密度圖譜,并通過(guò)這些數(shù)據(jù)獲得了蛋白質(zhì)翻譯表達(dá)速度方面的數(shù)據(jù)。據(jù)這些研究人員報(bào)道,使用蛋白質(zhì)翻譯表達(dá)速度方面的數(shù)據(jù)來(lái)判斷蛋白質(zhì)豐度要比用mRNA豐度來(lái)預(yù)測(cè)準(zhǔn)確得多。Weissman說(shuō)道:“對(duì)我們來(lái)說(shuō),定量蛋白質(zhì)組學(xué) (quantitative proteomics)最大的好處就是能客觀評(píng)價(jià)人們的工作究竟做得好不好?!睂?shí)際上,如果對(duì)結(jié)合在mRNA鏈5’ 端的核糖體數(shù)目進(jìn)行進(jìn)一步的修正,就能更準(zhǔn)確地預(yù)測(cè)出蛋白質(zhì)的豐度。

核糖體圖譜還可以用于翻譯控制(translational control)分析。Weissman等人正在使用該技術(shù)對(duì)饑餓酵母胞內(nèi)的翻譯反應(yīng)(translational response)進(jìn)行研究。毫無(wú)疑問(wèn),該方法也可以用于高等生物應(yīng)激或疾病狀態(tài)下的蛋白質(zhì)合成反應(yīng)控制情況。

核糖體圖譜技術(shù)還具有很高的空間準(zhǔn)確性(spatial precision),能準(zhǔn)確地反映出究竟是哪一個(gè)閱讀框被翻譯了。因此,可以使用該技術(shù)研究程序性框移(programmed frameshift)和終止密碼子通讀(stop-codon readthrough)等現(xiàn)象。Weissman等人最近在酵母中的工作還發(fā)現(xiàn),該技術(shù)可以發(fā)現(xiàn)mRNA 5’ 端非編碼區(qū)的異常翻譯情況。

正如Weissman對(duì)核糖體圖譜技術(shù)的總結(jié)一樣,“我們現(xiàn)在能直接得到全面的、高質(zhì)量的蛋白質(zhì)翻譯速度方面的數(shù)據(jù)。通過(guò)這些數(shù)據(jù)我們可以知道哪種蛋白質(zhì)表達(dá)了以及表達(dá)了多少。同時(shí),我們還能很方便地對(duì)翻譯過(guò)程本身進(jìn)行研究?!?/p>

原文檢索:Natalie de Souza. (2009) Deep sequencing of ribosome footprints. Nature Methods 6(4): 244-245.

2. 如何將數(shù)十億的短片段測(cè)序結(jié)果定位到龐大的基因組序列當(dāng)中

隨著新一代測(cè)序儀的出現(xiàn),人們獲得了大量的短片段序列,如何對(duì)這些短片段作圖就成了一個(gè)大問(wèn)題?,F(xiàn)在有什么辦法可以解決這個(gè)問(wèn)題呢?上述辦法又是基于何種原理工作的呢?

新一代測(cè)序儀可以以極快的速度以及極其低廉的價(jià)格獲得大量的序列,這已經(jīng)改變了基因組學(xué)的面貌。這些新測(cè)序儀一經(jīng)出現(xiàn),馬上就成為了全基因組測(cè)序的主力軍,廣泛應(yīng)用于各種測(cè)序相關(guān)的實(shí)驗(yàn)檢測(cè),包括基因表達(dá)譜檢測(cè)、DNA與蛋白質(zhì)相互作用 檢測(cè)和RNA剪切研究等。例如,它們可用于對(duì)RNA進(jìn)行測(cè)序,即先通過(guò)逆轉(zhuǎn)錄將其變成cDNA,然后再對(duì)cDNA進(jìn)行測(cè)序,這樣就能發(fā)現(xiàn)一些未知的基因, 并據(jù)此發(fā)現(xiàn)新的RNA剪切方式。也可以將測(cè)序技術(shù)應(yīng)用于ChIP,弄清楚與蛋白質(zhì)共沉淀的DNA片段的序列。這種方法能用于研究轉(zhuǎn)錄因子與DNA調(diào)控元件之間的相互作用。此外,對(duì)腫瘤細(xì)胞全基因組測(cè)序也能發(fā)現(xiàn)一些新的致癌突變。

但在新一代測(cè)序儀帶來(lái)方便的同時(shí)也帶來(lái)了問(wèn)題,即被稱(chēng)為“閱讀片段作圖(‘read mapping’)”的問(wèn)題。美國(guó)Illumina公司、Applied Biosystems(ABI)公司和Helicos公司等開(kāi)發(fā)的測(cè)序儀在測(cè)序時(shí)產(chǎn)生的都是長(zhǎng)約25bp~100bp左右的小片段序列,即“read”。 這些小片段都是待測(cè)樣品大片段的某一部分。與對(duì)未知的全基因組進(jìn)行測(cè)序,即與將所有小片段組裝成一個(gè)完整基因組的工作相比,人們現(xiàn)在大部分的工作實(shí)際都可以參照“參考基因組”(也稱(chēng)“模式基因組”,小詞典1)進(jìn)行。因此,要了解小片段“read”的作用,首先要知道它們?cè)趨⒖蓟蚪M中的確切位置,而對(duì)這些 小片段進(jìn)行定位的過(guò)程就稱(chēng)作“作圖”(mapping),或 “定位”(aligning)到參考基因組中。在作圖中,有一個(gè)問(wèn)題需要注意,那就是進(jìn)行定位(本文將在后面的“短片段作圖軟件”一節(jié)中對(duì)此做詳細(xì)介紹) 時(shí)不能出現(xiàn)大的“間隙”。而在對(duì)RNA進(jìn)行測(cè)序時(shí),因?yàn)榇嬖趦?nèi)含子的緣故,這一點(diǎn)就顯得尤為突出。因此,對(duì)RNA進(jìn)行測(cè)序時(shí)就允許有較大的間隙出現(xiàn)(這將 在下文“剪切后的短片段作圖軟件包”一節(jié)進(jìn)行詳細(xì)討論)。

當(dāng)然,上述問(wèn)題都不是伴隨新一代測(cè)序儀的出現(xiàn)而出現(xiàn)的新問(wèn)題,即使在經(jīng)典的 Sanger毛細(xì)電泳測(cè)序法中也有與之相應(yīng)的專(zhuān)門(mén)用來(lái)處理定位問(wèn)題的程序。不過(guò),這些程序既不能處理短片段測(cè)序儀獲得的大量序列數(shù)據(jù),也不能定位長(zhǎng)度較短的短片段序列。使用傳統(tǒng)的BLAST或BLAT軟件分析ChIP或RNA測(cè)序結(jié)果,可能會(huì)花上幾百甚至幾千個(gè)小時(shí)。幸運(yùn)的是,人們現(xiàn)在有了新的分析軟件。在選擇一款分析軟件之前,要先弄清楚,為什么用計(jì)算機(jī)處理作圖問(wèn)題會(huì)出現(xiàn)問(wèn)題?人們現(xiàn)在已經(jīng)解決了其中的哪些問(wèn)題?還存在哪些問(wèn)題?還有沒(méi)有其它機(jī)遇?

2.1 短片段作圖

2.1.1 對(duì)短小片段作圖存在哪些問(wèn)題?

問(wèn)題1:實(shí)際操作。如果參考基因組很大,而我們手上又有數(shù)十億計(jì)的短片段序列,那么 該如何處理這么龐大的數(shù)據(jù)呢?如何將每一條短片段定位到參考基因組中相應(yīng)的位置上?序列比對(duì)是生物信息學(xué)中的一個(gè)傳統(tǒng)問(wèn)題,有大量的文獻(xiàn)著作介紹了各種不 同的比對(duì)方法,既有精確嚴(yán)格的方法也有不那么嚴(yán)格的方法。不過(guò),從實(shí)際應(yīng)用的角度出發(fā),要將數(shù)十億的短小片段定位到哺乳動(dòng)物基因組大小級(jí)別的參考基因組中 需要借助效率非常高的算法進(jìn)行處理才有可能辦到。

問(wèn)題2:處理策略。如果某個(gè)短小片段屬于參考基因組里的一個(gè)重復(fù)元件,那么就應(yīng)該弄 清楚它來(lái)自重復(fù)元件中的哪一個(gè)拷貝。但這是不太可能實(shí)現(xiàn)的,所以分析程序一般都只能給出該短片段可能屬于參考基因組中哪幾個(gè)位點(diǎn)。同時(shí),由于測(cè)序錯(cuò)誤或者 檢測(cè)樣品間以及檢測(cè)樣品和參考基因組間出現(xiàn)變異等情況,使上述問(wèn)題變得更加嚴(yán)重。同樣,在RNA剪切體作圖中也存在上述問(wèn)題,而且由于內(nèi)含子的問(wèn)題使得情況更為復(fù)雜。

Illumina、ABI、Roche、Helicos以及其它眾多測(cè)序儀生產(chǎn)廠家 開(kāi)發(fā)的測(cè)序儀每一輪測(cè)序都能獲得百萬(wàn)計(jì)的短片段序列,不過(guò)要對(duì)一個(gè)基因組進(jìn)行完全測(cè)序則需要進(jìn)行好幾輪檢測(cè),這也就意味著要想獲得一份完整的全基因組圖譜 必須對(duì)數(shù)百萬(wàn)甚至是數(shù)十億的短小片段進(jìn)行作圖、定位和拼接。比如,最近由Ley小組做出的癌癥基因組序列就是通過(guò)132輪測(cè)序,對(duì)80億條短小片段進(jìn)行作圖后得到的結(jié)果。使用BLAST或BLAT比對(duì)法,借助大型的超級(jí)計(jì)算機(jī)只需要幾天就能獲得這個(gè)癌癥的基因組序列結(jié)果,但這并非人人都能享有。為了能讓更多的人用更廉價(jià)的計(jì)算機(jī)也能進(jìn)行類(lèi)似的作圖分析,人們開(kāi)發(fā)了一套新的比對(duì)定位程序,使用這種新程序即使在普通的臺(tái)式機(jī)上也能對(duì)數(shù)億計(jì)的短小片段進(jìn)行作圖分 析。測(cè)序儀器生產(chǎn)廠商也會(huì)提供一些專(zhuān)門(mén)的作圖軟件,例如Illumina公司開(kāi)發(fā)的ELAND程序等。本文將著重探討第三方開(kāi)發(fā)的軟件,這些軟件中很大一 部分都是開(kāi)放源代碼的免費(fèi)程序。這些軟件主要都是建立在這樣一種算法之上,即充分利用短小DNA序列的特點(diǎn)來(lái)作圖,而不需要依靠計(jì)算機(jī)強(qiáng)大的處理能力、內(nèi)存容量等條件。

2.1.2 短片段作圖軟件

Maq和Bowtie(見(jiàn)表16)都屬于上述提及的程序。它們使用的是一種稱(chēng)作“建立索引(indexing)”的策略。同時(shí),人們也對(duì)大量的DNA序列建立了一份索引,借助這份索引就能快速地找到其中的短DNA片段了。Maq軟件是基于一種直接的但是很有效的策略——空位種子片段索引法(spaced seed indexing)(圖12a)。它將一個(gè)短片段(read)分成了4條長(zhǎng)度相等的更短的片段——種子片段(seed)。如果整段短小片段(read)可以與參考基因組序列完全配對(duì),那么很顯然所有的種子片段(seed)也理所應(yīng)當(dāng)?shù)貞?yīng)該與參考基因組序列完全配對(duì)。但如果其中有一處錯(cuò)配,例如SNP,那么肯定有一條種子片段無(wú)法與參考基因組序列完全匹配。依次類(lèi)推,如果出現(xiàn)了兩處錯(cuò)配就會(huì)導(dǎo)致一條或兩條種子片段無(wú)法與參考基因組序列完全匹配。因此,對(duì)所有種子片段兩兩組合后的片段(共有6種組合方式)進(jìn)行比對(duì),就有可能找出該短小片段在基因組中最有可能的位點(diǎn)。Maq軟件采用的這種“空位種子片段索引法 ”(spaced seed indexing)作圖時(shí)的效率非常高。

Bowtie軟件采用的則是另一種完全不同的策略,該策略借鑒了Burrows- Wheeler轉(zhuǎn)換(Burrows-Wheeler transform)這種數(shù)據(jù)壓縮算法技術(shù),將完整的人類(lèi)基因組序列索引壓縮到不到2GB大?。ㄟ@是當(dāng)前主流臺(tái)式機(jī)甚至是筆記本電腦都能達(dá)到的水平),而空位種子片段索引法至少需要50GB。Bowtie每次都只把一段短片段序列中的一個(gè)堿基與經(jīng)Burrows-Wheeler轉(zhuǎn)換壓縮過(guò)的參考基因組序列進(jìn)行比對(duì)(圖12b)。經(jīng)過(guò)這種連續(xù)的比對(duì),最終也能找出這段短片段在參考基因組中的定位。如果Bowtie軟件發(fā)現(xiàn)短片段中的某個(gè)堿基在參考基因組中沒(méi) 有很好地配對(duì),那么軟件就會(huì)退回到上一個(gè)堿基重新進(jìn)行比對(duì)。實(shí)際上,Burrows-Wheeler轉(zhuǎn)換使得Bowtie軟件通過(guò)堿基逐個(gè)比對(duì),直至完成全長(zhǎng)短序列比對(duì)的方法解決了短序列作圖的問(wèn)題。從本質(zhì)上來(lái)說(shuō),Bowtie軟件使用的算法要比Maq采用的復(fù)雜得多,但Bowtie軟件卻比Maq軟件分析的速度快30倍。

Bowtie軟件和Maq軟件的默認(rèn)模式中至多都只會(huì)允許兩個(gè)錯(cuò)配位點(diǎn),不過(guò)有時(shí)有 些用戶(hù)需要允許更多的錯(cuò)配位點(diǎn)存在。Bowtie軟件和Maq軟件能夠分析的短序列長(zhǎng)度范圍在20bp~40bp之間,它們都經(jīng)過(guò)優(yōu)化設(shè)計(jì)以使其適合用于人類(lèi)基因組再測(cè)序計(jì)劃(human resequencing project)。不過(guò),現(xiàn)在Illumina公司最新的測(cè)序儀已經(jīng)能夠獲得長(zhǎng)約100bp的“短”片段序列,還有一些測(cè)序項(xiàng)目,例如細(xì)菌或真菌基因組測(cè) 序項(xiàng)目等獲得的片段序列與目前已經(jīng)測(cè)得的類(lèi)似物種全基因組序列之間存在著較大的差異。再加之隨著新測(cè)序儀的不斷涌現(xiàn),測(cè)序結(jié)果的質(zhì)量也在不斷提高,但這些 測(cè)序結(jié)果卻極易受到各種因素的影響,例如樣品文庫(kù)的準(zhǔn)備、測(cè)序操作步驟、甚至是放置測(cè)序儀器實(shí)驗(yàn)室的溫度等等。鑒于此,面對(duì)上述這些新出現(xiàn)的“問(wèn)題”,人 們也應(yīng)該采取相應(yīng)的措施,調(diào)整Maq軟件和Bowtie軟件的各種參數(shù)使之適應(yīng)這些新情況。

表16列出的是幾種新的開(kāi)放源代碼的短片段序列作圖軟件,它們的安裝和使用都很簡(jiǎn)單。

Bowtie軟件包中包括預(yù)置的大腸桿菌基因組索引和部分大腸桿菌短片段序列。要使用該軟件分析數(shù)據(jù)只需輸入下面的命令就會(huì)生成一個(gè)表格式的報(bào)告,給出每一個(gè)匹配短序列的編號(hào)、在參考基因組中的位置、以及發(fā)生錯(cuò)配的位點(diǎn)個(gè)數(shù)和具體位置。

bowtie e_coli reads/e_coli_1000.fq

在Maq軟件中輸入以下命令也會(huì)得到同樣的結(jié)果。

maq.pl easyrun -d outdir
reference.fasta reads.fastq

對(duì)于一次實(shí)驗(yàn)來(lái)說(shuō),短序列片段能否與參考基因組相匹配實(shí)際上取決于很多因素。假設(shè)被測(cè)序的DNA片段中幾乎沒(méi)有錯(cuò)配位點(diǎn),大多數(shù)作圖軟件也只能定位 出70%~75%的短片段序列。這個(gè)結(jié)果和使用Sanger測(cè)序法獲得的80%的結(jié)果比起來(lái)低得令人吃驚,說(shuō)明現(xiàn)在第二代測(cè)序技術(shù)還不成熟。這提示人們,很多短片段都需要與參考基因組中的多個(gè)位點(diǎn)進(jìn)行比對(duì),而大部分的作圖軟件都只會(huì)給出短片段在參考基因組中的一個(gè)匹配位點(diǎn)。

有了序列定位的軟件,接下來(lái)就可以了解這些短片段具體在參考基因組中的什么位置了,同時(shí)也可知道SNP都位于基因組中的什么地方。SAM軟件包能滿(mǎn) 足這些要求。SAM軟件包(

http://samtools.sourceforge.net)包括一體化的堿基調(diào)用和瀏覽器(base caller and viewer),它能使用Maq和Bowtie兩種分析軟件。

實(shí)際上,大部分短片段作圖軟件設(shè)計(jì)的初衷都是為了服務(wù)于人類(lèi)全基因組再測(cè)序工作,但是調(diào)整軟件參數(shù)之后,它們也能應(yīng)用于其它方面。Maq和 Bowtie這兩種分析軟件的操作手冊(cè)都寫(xiě)得非常詳細(xì),它們給出的備選方案多到“嚇人”的程度?,F(xiàn)在還出現(xiàn)了越來(lái)越多的短片段作圖軟件(表16),不過(guò)每一款軟件都無(wú)法達(dá)到十全十美的境界,而且各有偏重,這就給人們選擇軟件及其配置參數(shù)帶來(lái)了麻煩。幸運(yùn)的是,人們能夠得到幫助。SeqAnswers message board(http://www.seqanswers.com,圖13)就是一個(gè)非常好的論壇,它是一個(gè)短片段作圖軟件開(kāi)發(fā)人員經(jīng)常光顧的論壇。最流行的SeqAnswers線程一般都包括目前用于初步分析的軟件和短序列數(shù)據(jù)可視化處理的軟件一覽表。

 


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
測(cè)序簡(jiǎn)史
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服