最近看到很多戰(zhàn)友在論壇上詢問如何查詢基因序列、如何進(jìn)行引物設(shè)計(jì)、如何使用BLAST進(jìn)行序列比對……,這些問題在NCBI上都可以方便的找到答案?,F(xiàn)在我就結(jié)合我自己使用NCBI的一些經(jīng)歷(經(jīng)驗(yàn))跟大家交流一下BCBI的使用。希望大家都能發(fā)表自己的使用心得,讓我們共同進(jìn)步!
我分以下幾個部分說一下NCBI的使用:
Part one: 如何查找基因序列、mRNA、Promoter (第一頁)
Part two :如何查找連續(xù)的mRNA、cDNA、蛋白序列(第一頁)
Part three :運(yùn)用STS查找已經(jīng)公布的引物序列(第二頁)
Part four: 如何運(yùn)用BLAST進(jìn)行序列比對、檢驗(yàn)引物特異性(第三頁)
Part Five:5.1 從SNP的序列號入手找到其對應(yīng)的基因序列和該SNP在基因組中的具體位置。5.2 查找目的基因的所有已公布SNP位點(diǎn)(第四頁) 如果您感覺網(wǎng)頁形式看起來太亂,請到 http://www.dxy.cn/bbs/post/view?bid=64&id=9681760&sty=1&tpg=2&age=0 下載PDF版本(此PDF版本為我實(shí)驗(yàn)室的lzfist所整理,包含前四部分內(nèi)容)特別感謝本版版主,將這個帖子置頂!
從發(fā)帖到現(xiàn)在,很多戰(zhàn)友對該帖給與了積極的關(guān)注,在此向給我投票的(以及想給我投票卻暫時(shí)不能投票的)各位戰(zhàn)友表示真誠的感謝,謝謝各位戰(zhàn)友!
請大家對以下我發(fā)表的內(nèi)容提出自己的意見。關(guān)于NCBI其他方面的使用也請水平較高的戰(zhàn)友給予補(bǔ)充。First of all,還是讓我們從查找基因序列開始。
Part one: 利用Map viewer查找基因序列、mRNA序列、啟動子(Promoter)[同一個頁面即可顯示基因序列和啟動子]
下面以人的IL6(白細(xì)胞介素6)為例講述一下具體的操作步驟
一、打開Map viewer頁面,網(wǎng)址為:http://www.ncbi.nlm.nih.gov/mapview/index.html
在search的下拉菜單里選擇物種,for后面填寫你的目的基因。操作完畢如圖所示:
二、點(diǎn)擊“GO”出現(xiàn)如下頁面: 三、在步驟二圖示的右下角有一個Quick Filter,下面是讓你選擇的幾個復(fù)選框,在Gene前面的小方框里打勾,然后點(diǎn)擊Filter. 出現(xiàn)下圖:
說明一下:1、染色體的紅色區(qū)域即為你的目的基因所處位置。2、下面參考序列給出了三個,是不同的部門做出來的,經(jīng)我驗(yàn)證,序列有微小的差異,但總體來說基本相同。盡管你分別點(diǎn)擊后,序列代碼、序列代碼等有所差異,但堿基基本一致,不影響大家研究分析序列?,F(xiàn)在普遍采用的是最上面的那個序列,這一條是世界范圍的生物科學(xué)家用計(jì)算機(jī)合成的一個序列。我也推薦大家使用這個序列。
四、點(diǎn)擊上述三條序列第一條序列(即reference)對應(yīng)的"Genes seq",出現(xiàn)新的頁面,頁面下方為:
五、點(diǎn)擊上圖出現(xiàn)的“Download/View Sequence/Evidence ”,即下載查看序列等功能,結(jié)果如圖所示:
先對上面這張圖做點(diǎn)簡要的說明,在Sequence Format(序列輸出格式)后面是一個下拉式選擇菜單,默認(rèn)的為FASTA格式,還有一個是GenBank格式。我推薦大家選擇GenBnak格式,因?yàn)檫@個格式提供了很多該基因的信息,而FASTA格式只有基因序列。六、在Sequence Format后選擇GenBank,然后點(diǎn)擊下面的Display,目的基因的相關(guān)信息和序列就出現(xiàn)在眼前了。點(diǎn)擊后如圖所示(網(wǎng)頁較大,只抓取一小部分以作示范):
在上述打開的網(wǎng)頁中,你可以看到基因長度,基因序列,以及這個基因是如何被報(bào)道出來的等各種信息。
你會看到: mRNA join(3598..3678,3841..4031,5090..5203,5911..6057, 7803..8394) 這代表了從基因的3598位開始就是轉(zhuǎn)錄區(qū)了,即我們常說的mRNA片斷,由于內(nèi)含子的存在,所以mRNA在DNA序列上分成了幾段。
CDS join(3660..3678,3841..4031,5090..5203,5911..6057, 7803..7970)
CDS代表編碼序列,即蛋白編碼區(qū)是從3660開始的(ATG),由于剪接作用所以CDS區(qū)也是不連續(xù)的。
說到這里,可能很多朋友都已經(jīng)明白了promoter即啟動子區(qū)域在哪里了。但我還是再嘮叨幾句:轉(zhuǎn)錄起始位點(diǎn)前面是基因的調(diào)控區(qū),啟動子區(qū)沒有明顯的位置定義,大家也只是猜測它的大體位置,如果你要研究promoter區(qū)的話,建議你選擇轉(zhuǎn)錄起始位點(diǎn)前的2000個堿基進(jìn)行研究,一般默認(rèn)的是這樣。當(dāng)然你如果覺得長度太長不好研究的話,也可以只研究-1000到0這一千個堿基,因?yàn)橐话闱闆r下,啟動子區(qū)的變異都在這個區(qū)域內(nèi)。
這樣大家就可以找到自己的目的基因序列和啟動子了,這種方法可能使用的人不是很多,但我個人比較喜歡,因?yàn)樗畲蟮膬?yōu)點(diǎn)是可以找到啟動子區(qū)域和其他調(diào)控區(qū)域。希望大家可以發(fā)帖交流,讓我們把NCBI用的更好!
NCBI的使用:
Part two 如何查找連續(xù)的mRNA、cDNA、蛋白序列(依然以人類的IL6為例)
1、進(jìn)入NCBI主頁:http://www.ncbi.nlm.nih.gov/
在search后面選擇Gene,在for后面填寫需要查找的基因的名字。如圖所示:
點(diǎn)擊“Go”,出現(xiàn)以下界面:
出現(xiàn)了很多基因序列,在每個序列的右邊還有“Order cDNA clone” 的鏈接,這些序列中有些序列是跟你的目的基因同名的,有些是別名(Other Aliases)與你的目的基因一致,根據(jù)每個序列的介紹認(rèn)真選擇你的目的基因。上圖中我需要的IL6是標(biāo)號為2的序列。
2.1、查找cDNA序列
2.1.1、點(diǎn)擊Order cDNA clone, 出現(xiàn)目的頁面如圖所示:
2.1.2、點(diǎn)擊Clone Sequence后面的鏈接即可得到cDNA序列。點(diǎn)擊后如圖所示(只抓取其中一部分):
2.2、查找mRNA、蛋白序列
回到步驟1點(diǎn)擊“Go”之后出現(xiàn)的頁面,點(diǎn)擊目的基因的名字,出現(xiàn)以下頁面(只抓取相關(guān)部分):
頁面的下半部分,即可以獲取mRNA和蛋白序列的部分:
找到“NCBI Reference Sequences (RefSeq)”,它分為幾個板塊,第一個“mRNA and Protein
”區(qū)可以讓我們找到連續(xù)的編碼mRNA序列和蛋白序列。在mRNA and Protein
下面有兩個序列代碼(中間劃有一個箭頭),這代表了mRNA序列和蛋白序列。分別點(diǎn)擊就可以得到相應(yīng)的序列頁面。點(diǎn)擊后如圖所示,mRNA序列:
NCBI Reference Sequences (RefSeq)的第二個板塊是Reference assembly,它下面顯示的是Genomic ,點(diǎn)擊Genomic下面Reference assembly對應(yīng)的Genbank或FASTA即可出現(xiàn)編碼的DNA序列(注意:只是編碼序列,其中包括內(nèi)含子,但一般沒有5‘非編碼區(qū))。這一步就不做貼圖演示了吧,呵呵。
這樣我們就可以找到基因的cDNA序列、連續(xù)的編碼mRNA序列、蛋白序列以及含有內(nèi)含子的編碼DNA序列了。相信這些操作對很多戰(zhàn)友還是有用的。
如果大家有更好的方法,歡迎發(fā)帖交流!
友情提示:在NCBI里打開的每一個頁面都會給我們提供大量的信息,大家不妨好好看看,可能會有令我們驚喜的收獲!
最后嘮叨一句:最近我實(shí)驗(yàn)比較忙,只能在深夜發(fā)帖,可能要過幾天再發(fā)第三部分[Part three 運(yùn)用STS查找已經(jīng)公布的引物序列],希望“期待下集”的朋友可以理解。
STS,序列標(biāo)簽位點(diǎn)(Sequence Tagged Site):一段短的DNA序列(200-500個堿基對),這種序列在染色體上只出現(xiàn)一次,其位置和堿基順序都是已知的。在PCR反應(yīng)中可以檢測處STS來,STS適宜于作為人類基因組的一種地標(biāo),據(jù)此可以判定DNA的方向和特定序列的相對位置。
以上內(nèi)容基本是STS的定義,我主張活學(xué)活用,下面就介紹一下我個人用STS數(shù)據(jù)庫查找引物的一點(diǎn)經(jīng)驗(yàn)。
一步一步教你使用NCBI之三:
Part three 運(yùn)用STS查找已經(jīng)公布的引物序列還是使用人的IL6基因?yàn)槔?,呵?br>
一、打開NCBI主頁,在Search后面的下拉菜單選擇UniSTS,在FOR后面填寫目的基因。
操作完畢如圖所示:
點(diǎn)擊GO以后出現(xiàn)以下頁面,
這是你會發(fā)現(xiàn)NCBI又提供了很多序列,下面我們還是要初步篩選我們需要的序列。
二、根據(jù)物種、目的陰物所在染色體的位置等選擇相應(yīng)序列(可能不只一個),點(diǎn)擊。
下面以點(diǎn)擊第一個進(jìn)入的畫面為例。
你會發(fā)現(xiàn)這個頁面直接就給出了引物序列,PCR之后的片段長度也是給了的(247bp)。下面還有很多相關(guān)的信息……
三、點(diǎn)擊GeneBank Accession 后面的代碼,進(jìn)入下一個頁面。
??!前后引物都呈現(xiàn)在眼前了,還有反應(yīng)體系和反應(yīng)條件!其中Primer A是前引物序列,Primer B則是后引物序列,并且給出了他們在DNA序列中的位置。有興趣的朋友可以在序列中找一下,是可以找到的, 不過要注意,PCR是雙鏈擴(kuò)增,在序列中可以直接找到的是Primer A的原序列 和 Primer B的互補(bǔ)序列。
在步驟二里面我只點(diǎn)開了一個序列,繼續(xù)打開其他的可能還會有對自己有用的引物,不過這要你自己慢慢發(fā)掘了。
這種尋找引物的方法有點(diǎn)投機(jī)取巧的味道,實(shí)用程度不是很高,但如果這里面恰好有你想P的片段的話,恭喜你,這些引物都是很成熟的引物,可以直接拿過來使用了。
如果想尋找引物,大家可以查閱相關(guān)論文,已經(jīng)報(bào)道的引物我們?yōu)槭裁床挥媚兀?!既省時(shí)間,可靠性又強(qiáng)。
如果這兩種方法都不能找到你需要的引物的話,那就自己設(shè)計(jì)吧,建議使用Primer 5 和 Oligo。引物設(shè)計(jì)的詳細(xì)內(nèi)容我在這里就不多說了,推薦兩個帖子給大家看一下,第一個是本版版主liuzeyi2002發(fā)起的,內(nèi)容很豐富,很值得學(xué)習(xí),另一個則是我發(fā)的。
http://www.dxy.cn/bbs/post/view?bid=64&id=9517792&sty=1&tpg=1&age=0http://www.dxy.cn/bbs/post/view?bid=67&id=9523263&sty=1&tpg=1&age=0Part four 如何運(yùn)用BLAST進(jìn)行序列比對、檢驗(yàn)引物特異性 將于下周與大家見面……夜色很深了,我也該睡覺了,祝大家實(shí)驗(yàn)順利,每天都能做個好夢!
Part four 如何運(yùn)用BLAST進(jìn)行序列比對、檢驗(yàn)引物特異性
提到序列比對,絕大多數(shù)戰(zhàn)友都會想到BLAST,但BLAST的使用確實(shí)又是一個很大的難題,因?yàn)樗墓δ鼙容^強(qiáng)悍,里面涉及到的知識比較多,而且比對結(jié)束后輸出的結(jié)果參數(shù)(指標(biāo))又很多。如果把BLAST的使用詳細(xì)的都講出來,我想我發(fā)帖發(fā)到明天也發(fā)不完,更何況我自己也不是完全懂得BLAST的使用。所以我在這里也就“畫龍點(diǎn)睛”——以比對核酸序列為例來給大家介紹一下BLAST的使用,也算是BLAST的入門課程吧。
請看帖的戰(zhàn)友好好體會,如果你用心看,在看帖完畢之后BLAST的基本使用(包括其他序列的比對)應(yīng)該沒有問題了。 一、打開BLAST頁面,http://www.ncbi.nlm.nih.gov/BLAST/ 打開后如圖所示:
對上面這個頁面進(jìn)行一下必要的介紹:
BLAST的這個頁面主體部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。相信大家可以看懂這三個短語的意思,我就不多說了;我要說的是,可以認(rèn)為這是三種序列比對的方法,或者說是BLAST的三條途徑。
第一部分BLAST Assembled Genomes就是讓你選擇你要比對的物種,點(diǎn)擊相應(yīng)物種之后即可進(jìn)入比對頁面。
第二部分Basic BLAST包含了5個常用的BLAST,每一個都附有簡短的介紹。
第三部分Specialized BLAST是一些特殊目的的BLAST,如IgBLAST、SNP等等,這個時(shí)候你就需要在Specialized BLAST部分做出適當(dāng)?shù)倪x擇了。
總之,這是一個導(dǎo)航頁面,它的目的是讓你根據(jù)自己的比對目的選擇相應(yīng)的BLAST途徑。
下面以最基本的核酸序列比對來談一下BLAST的使用,期間我也會含沙射影的說一下其他序列比對的方法。
二、點(diǎn)擊Basic BLAST部分的nucleotide blast鏈接到一個新的頁面。打開后如圖所示:
介紹一下上述頁面:
Enter Query Sequence部分是讓我們輸入序列的,你可以直接把序列粘貼進(jìn)去,也可以上傳序列,還可以選擇你要比對的序列的范圍(留空就代表要比對你要輸入的整個序列)。Job Title部分還可以為本次工作命一個名字。
Choose Search Set部分是讓我們選擇要與目的序列比對的物種或序列種類(genome DNA、mRNA等等)。如果是人或老鼠的話,就可以直接選擇了如果是其他物種就要選擇“others”了,這時(shí)候網(wǎng)頁會主動跳出一個下拉對話框和一個輸入式對話框,你可以分別選擇和輸入要跟你的序列比對的序列種類和物種。下面的Entrez Query可以對比對結(jié)果進(jìn)行適當(dāng)?shù)南拗啤?br>
Program Selection部分其實(shí)是讓我們選擇本次比對的精確度,種內(nèi)種間等等。
在BLAST按鈕下面有一個“Algorithm parameters” ,這是參數(shù)設(shè)置選項(xiàng),一般用戶使用不到此項(xiàng),所以它比較隱蔽,點(diǎn)擊,原網(wǎng)頁下方即可增加了Algorithm parameters的內(nèi)容。大部分戰(zhàn)友都用不到更改這里面的選項(xiàng),我也不多說了,有興趣的朋友可以自己研究一下。
三、依次填寫上述網(wǎng)頁必須部分,點(diǎn)擊BLAST按鈕后,出現(xiàn)如下界面(只截取其中一部分):
出現(xiàn)的這個結(jié)果頁面信息含量非常大,如果我們用心觀察,還是可以發(fā)現(xiàn)其中的一些主要指標(biāo)的。列舉上圖也是為了給大家展示一下這些評價(jià)標(biāo)準(zhǔn)。其中Description部分推薦大家詳細(xì)看一下,另外說一下“E value” 這個指標(biāo)與其他指標(biāo)不同,它的數(shù)值越小相似程度越高,其他幾個(如Totle score)都是數(shù)值越高相似度越高。
在這個圖示的表格下方就是具體的相似性的核酸序列了,還配合著各種參數(shù)的得分。
好了,各位親愛的戰(zhàn)友,我的BLAST就發(fā)到這里為止了,更具體的東西有待大家一起去努力研究。伴隨著BLAST的終結(jié),我的“一步一步教你使用NCBI”也要暫時(shí)告一段落了,很高興自己發(fā)第一個帖子時(shí)說的話今天終于做到了。以后如果我有新的NCBI使用方法的話,我還會添加到這里來,但我想這一陣子是不會接著發(fā)了,呵呵。
真心希望各位戰(zhàn)友在這里一起交流自己使用NCBI的一些技巧,正如丁香園的宗旨一樣——“我為人人,人人為我”,讓我們互相學(xué)習(xí)、共同進(jìn)步,最后再一次祝愿大家試驗(yàn)順利!
yh9913 wrote:
樓主,我現(xiàn)在正在研究RNAi.通過對你1-3集的學(xué)習(xí),我順利的找到了我要的mRNA序列,也設(shè)計(jì)了siRNA序列,然后就一直苦等你的第四集BLAST.但我從昨天你發(fā)貼開始看,到現(xiàn)在也還沒學(xué)會怎么比對序列的同原性.樓主沒有舉例啊,所以看得很抽象.有問題請教:
urbest 說:
Enter Query Sequence部分是讓我們輸入序列的,你可以直接把序列粘貼進(jìn)去,也可以上傳序列,還可以選擇你要比對的序列的范圍(留空就代表要比對你要輸入的整個序列)。Job Title部分還可以為本次工作命一個名字。
請問,我要輸入的是整個mRNA序列,還是設(shè)計(jì)的siRNA序列?如果是輸入siRNA序列,是正義還是反義鏈的序列?方向是5'-3'還是3'-5'?那Query subrange 的"FROM ...TO ..."里該填什么內(nèi)容呢?
我用AMBION的設(shè)計(jì)軟件,出來很多siRNA序列,在用BLAST比對同源性時(shí),是不是只能一個序列一個序列的去檢測啊?那工作量就超大了啊!!!
本人很是愚鈍,急盼樓主和各位高手指點(diǎn)迷津!!謝謝了.....
對于以上yh9913戰(zhàn)友的提問,盡我所能回復(fù)如下:
1、根據(jù)你的實(shí)驗(yàn)?zāi)康?,我個人認(rèn)為你應(yīng)該比對的是你設(shè)計(jì)的siRNA序列(現(xiàn)在再比對原mRNA好像沒有什么價(jià)值了吧)。
2、輸入跟要降解的RNA配對的那條鏈簡單直接一點(diǎn),可以直接選擇只BLAST RNA。(其實(shí),如果你有耐心,輸入siRNA的正義還是反義鏈都是一樣的,NCBI都會列舉出有可能跟他配對的所有序列,不管正義還是反義鏈,你的理想結(jié)果不都是跟某一特定的RNA結(jié)合效能較高嗎?你輸入兩條鏈的任何一條,NCBI都會列出與其配對的RNA、DNA and so on,你可以找到與你輸入序列配對的DNA看一下,主要看結(jié)合位置,需要耐心噢)。但要注意輸入的順序一定要是5‘到3‘。
3、我沒有做過RNAi,所以對AMBION也沒有了解。但我個人認(rèn)為他設(shè)計(jì)出來的這些siRNA序列應(yīng)該也有自己的評價(jià)標(biāo)準(zhǔn)吧,建議先選舉AMBION認(rèn)為較好的序列再使用BLAST比對。
4、關(guān)于BLAST是否可以多個序列同時(shí)比對的問題我也不是很清楚,我聽說可以,但至今我也不知道怎么才能做到。希望知情的戰(zhàn)友回帖指導(dǎo)。
Bonnie03 wrote:
請問urbest樓主,直到一個基因的rs號,如何確定它在整個基因組中的genome location?
以下內(nèi)容作為這一系列帖子的第五部分:
Part Five: 5.1 從SNP的序列號入手找到其對應(yīng)的基因序列和該SNP在基因組中的具體位置。5.2 查找目的基因的所有已公布SNP位點(diǎn)5.1 從SNP的序列號入手找到其對應(yīng)的基因序列和該SNP在基因組中的具體位置。
跟Bonnie03 PM之后,得到rs號為rs6677188,其實(shí)這不是一個基因的編號,而是一個SNP的編號。要得到它的詳細(xì)信息可以參考以下途徑,有興趣的戰(zhàn)友可以自己照著做一下,為了節(jié)約版面,不做詳細(xì)抓圖:
1,打開NCBI的SNP頁面,網(wǎng)址為
http://www.ncbi.nlm.nih.gov/sites/entrez?db=Snp 在搜索的for后面填寫rs編號,點(diǎn)擊go
2,這時(shí)會出現(xiàn)搜索結(jié)果頁面,如圖所示:
由于編號是唯一的,所以搜索結(jié)果也是唯一的,如果要得到它的詳細(xì)信息,點(diǎn)擊該編號對應(yīng)的超鏈接即可。
3,點(diǎn)擊該編號對應(yīng)的超鏈接,得到詳細(xì)信息頁面,如圖所示(抓取部分頁面):
4.1 如果要得到該SNP所在基因的序列,可通過點(diǎn)擊NCBI Resource Links對應(yīng)的序列代碼實(shí)現(xiàn),建議選擇GenBank(即NT 032977),這里不做演示,有興趣的朋友可以自己操作。
4.2 如果要得到該SNP在基因組里的位置圖,可以通過點(diǎn)擊Integrated Maps對應(yīng)的超鏈接(即chromosome1)來實(shí)現(xiàn),點(diǎn)擊后出現(xiàn)下圖:
如果你看過這個帖子前幾部分的內(nèi)容,對這張圖一定不陌生了,呵呵
5,要得到這個SNP在基因組中詳細(xì)的位置,點(diǎn)擊Map element下面對應(yīng)的超鏈接就可以了,這里就不抓圖演示了,建議選擇第一個,即reference所對應(yīng)的。
以上內(nèi)容都是建立在查找文獻(xiàn)后,知道了一個既定的位點(diǎn)后而進(jìn)行的。
5.2 查找目的基因的所有已公布SNP位點(diǎn)
如果要查找一個基因所有已公布的SNP信息,可以直接打開SNP主頁,在搜索框里填寫目的基因名字,然后搜索,下面的問題就不復(fù)雜了,相信大家可以自己實(shí)現(xiàn),我就不多說了。
關(guān)于SNP暫時(shí)先說這么多,關(guān)于何如使用NCBI查找SNP方面的信息,歡迎大家發(fā)帖交流,我自己也是做SNP方面的試驗(yàn),也希望這面的知識能夠知道更多,期待大家指導(dǎo)……