RepeatMasker是一款專門用于基因組重復(fù)序列識別的軟件,幾乎用于所有物種。是做基因組、非編碼RNA的必備軟件。很多ncRNA與Repeat區(qū)有高度相關(guān)性。
安裝在Ubuntu 12.04上,時間為2013-4-7,所有相關(guān)軟件和數(shù)據(jù)庫全為最新版。
1. RMBlast序列搜索引擎
下載源RMBlast源碼包: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/rmblast/2.2.28/ncbi-rmblastn-2.2.28-src.tar.gz
sudo apt-get install g++ #安裝g++編譯器 tar zxvf ncbi-rmblastn-2.2.28-src.tar.gz #解壓 cd ncbi-rmblastn-2.2.28-src.tar.gz/c++/ ./configure --with-mt --prefix=/usr/local/rmblast --without-debug make #編譯,需要半小時 sudo make install
2. TRF(Tandem Repeat Finder)搜尋串聯(lián)重復(fù)序列
http://tandem.bu.edu/trf/trf407b.linux.download.html
sudo mv trf407b.linux /usr/local/bin/trf #將程序移到可執(zhí)行目錄并改名
3. RepeatMasker程序
http://www.repeatmasker.org/RMDownload.html 2/21/2013: RepeatMasker-open-4-0-1.tar.gz
tar xvzf RepeatMasker-open-4-0-1.tar.gz
數(shù)據(jù)庫http://www.girinst.org/server/RepBase/index.php, 需要注冊才能下載,人工審批,可能要等兩天
repeatmaskerlibraries-20120418.tar.gz (26.76 MB)
也可以在我的百度網(wǎng)盤下載,http://pan.baidu.com/share/link?shareid=417337&uk=1946176681
cp repeatmaskerlibraries-20120418.tar.gz RepeatMasker/ sudo tar xvzf repeatmaskerlibraries-20120418.tar.gz #解壓并覆蓋原目錄 ./configure #主要是輸入RMBlast安裝目錄,/安裝目錄/ncbi-rmblastn-2.2.28-src/c++/GCC460-ReleaseMT/bin sudo ln -s /安裝目錄/RepeatMasker/RepeatMasker /usr/local/bin/RepeatMasker #設(shè)置環(huán)境變量
以擬南芥基因組為例
~/Documents/Data/genome_ath10$ RepeatMasker -species arabidopsis TAIR10_chr_all.fas