蛋白質(zhì)與核酸測(cè)序技術(shù)應(yīng)用以來,已積累了極大量數(shù)據(jù). 同時(shí),基于典型西方哲學(xué)演繹與解析的分析思路而建立的組合化學(xué)數(shù)據(jù)庫已經(jīng)成為合理分子設(shè)計(jì)(rational molecular esign)的重要支柱,為創(chuàng)造全新的非自然產(chǎn)物提供了可能. 所以,將新穎的計(jì)算技術(shù)與方法應(yīng)用于經(jīng)驗(yàn)和理論生物學(xué)研究的時(shí)代已經(jīng)到來,生物信息學(xué)由此誕生. 但生物數(shù)據(jù)的海量性和復(fù)雜性又都是組合化學(xué)等其他數(shù)據(jù)密集型科學(xué)所不及的,這也是生物信息學(xué)所面臨的更大挑戰(zhàn).
一般意義上,生物信息學(xué)研究生物信息的采集、處理、存儲(chǔ)、傳布、分析和解釋等各個(gè)方面,它通過綜合數(shù)學(xué)、計(jì)算機(jī)科學(xué)與工程和生物學(xué)的工具與技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘. 它作為一個(gè)交叉學(xué)科領(lǐng)域而薈萃了數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和分子生物學(xué)的科學(xué)家,目標(biāo)就是要發(fā)展和利用先進(jìn)的計(jì)算技術(shù)解決生物學(xué)難題. 這里所說的計(jì)算技術(shù)至少包括機(jī)器學(xué)習(xí)(machine learning)、模式識(shí)別(pattern recognition)、知識(shí)重現(xiàn)(knowledge representation)、數(shù)據(jù)庫、組合學(xué)(combinatorics)、隨機(jī)模型(stochastic modeling)、字符串和圖形算法、語言學(xué)方法、機(jī)器人學(xué)(robotics)、局限條件下的最適推演(constraint satisfaction)和并行計(jì)算等. 而生物學(xué)方面的研究對(duì)象覆蓋了分子結(jié)構(gòu)、基因組學(xué)、分子序列分析、進(jìn)化和種系發(fā)生、代謝途徑、調(diào)節(jié)網(wǎng)絡(luò)等諸多方面.
許多研究與發(fā)展組織都預(yù)測(cè):基因組學(xué)研究將會(huì)徹底革新未來鑒定生物學(xué)產(chǎn)物和選擇更佳目標(biāo)用于小分子生物功能篩選的過程. 隨著基因組研究規(guī)模擴(kuò)大,生物信息學(xué)將原始序列數(shù)據(jù)轉(zhuǎn)換為有意義的生物學(xué)信息之重要性也隨之增長(zhǎng).
嚴(yán)峻的挑戰(zhàn)和巨大的機(jī)會(huì)往往出現(xiàn)在相同的時(shí)間和地點(diǎn). 生物信息學(xué)各個(gè)分支都亟待改進(jìn)和提高的3個(gè)方面是:更加有效地處理大規(guī)模的數(shù)據(jù)、建立通用的智能型工具、使所有的操作程序自動(dòng)化.
2 生物信息數(shù)據(jù)庫
目前,國(guó)際性合作的幾個(gè)基因組計(jì)劃已經(jīng)積累了超大量的生物信息并以不同組織形式構(gòu)成許多數(shù)據(jù)庫. 其中一些屬于商業(yè)數(shù)據(jù)庫需要預(yù)先注冊(cè)和付費(fèi)才能檢索,而更多數(shù)據(jù)庫是公開和免費(fèi)的并可通過互聯(lián)網(wǎng)絡(luò)(Internet)訪問. 隨著研究深入,公共數(shù)據(jù)庫越來越成為世界各地生物學(xué)家的重要給養(yǎng).
美國(guó)國(guó)家實(shí)驗(yàn)室(Brookhaven National Laboratory, BNL)的蛋白質(zhì)數(shù)據(jù)庫(Protein data bank, PDB)可同時(shí)提供蛋白質(zhì)序列及其三維空間晶體學(xué)原子坐標(biāo). 其中受體配體、抗原-抗體、底物-酶復(fù)合物等相互作用分子的共結(jié)晶圖譜是基于同源比較的分子設(shè)計(jì)所需的最佳模型,因此PDB為初步的蛋白質(zhì)合理設(shè)計(jì)提供了無價(jià)的知識(shí)來源. 其超文本傳輸(hyper text transfer protocol)地址為http://www.pdb.bnl.gov/,文件傳輸(file transfer protocol)地址為ftp:\\ftp.pdb.bnl.gov/pub/databases/pdb/all_entries/compressed_files/. PDB在幾個(gè)世界著名科研機(jī)構(gòu)所在地設(shè)有鏡象站點(diǎn)(mirror site),如歐洲生物信息學(xué)研究所(European Bioinformatics Institute, EBI)的http://www.ebi.ac.uk/pdb/和ftp://ftp.ebi.ac.uk/pub/databases/pdb/,北京大學(xué)物理化學(xué)研究所的http://162.105.177.12/npdb/和ftp://162.105.177.12/fullrelease/compressed_files/等.
超文本版本的細(xì)胞系數(shù)據(jù)庫(Hypertext version of the cell line data base, HyperCLDB)專門提供歐洲各家實(shí)驗(yàn)室和捐獻(xiàn)站的人和動(dòng)物細(xì)胞系的信息超過. 目前已有3100種以上的品系,在其說明中能查到可以從哪些實(shí)驗(yàn)室獲得,并顯示每個(gè)術(shù)語或數(shù)值在總詞匯表和索引表中的出現(xiàn)頻率. 還有指向在線人類孟德爾遺傳(Online mendelian inheritance in Man, OMIM)記錄的鏈接,提供較為深入的病理學(xué)知識(shí),從病理學(xué)家名錄到與某個(gè)特定病理過程相關(guān)的細(xì)胞系資料. 直接指向URL提醒系統(tǒng)(reminder system)的鏈接可在所注冊(cè)的網(wǎng)頁更新時(shí)就用電子郵件提醒用戶. HyperCLDB的搜索引擎在http://www.biotech.ist.unige.it/tab/HyperSearch.html.
OWL混合蛋白質(zhì)序列數(shù)據(jù)庫(Composite protein sequences databases)是一非重復(fù)蛋白質(zhì)序列數(shù)據(jù)庫,其數(shù)據(jù)來源包括(截止到1998年6月以前的統(tǒng)計(jì)):(1) 含有69 110個(gè)分子25 083 142個(gè)殘基的第35版Swiss-Prot;(2) NBRF的含有393個(gè)分子235 554個(gè)殘基的第55版PIR1,45 067個(gè)分子12 796 251個(gè)殘基的第55版PIR2,357個(gè)分子69 696個(gè)殘基的第55版PIR3,164個(gè)分子27 699個(gè)殘基的第55版PIR4;(3) 含有134 190個(gè)分子41 324 437個(gè)殘基的第105.0版GenBank;(4) 含有1 233個(gè)分子236 843個(gè)殘基的第23.0版NRL_3D,每項(xiàng)條目都可以在BNL的X線晶體結(jié)構(gòu)數(shù)據(jù)庫中查到,其代碼為NRL_開頭再加上4個(gè)字符的PDB代碼. 全部入庫序列數(shù)已達(dá)到25 0514個(gè)分子79 773 622個(gè)殘基. 它的WWW地址為http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owlcontents.html.
歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory, EMBL)的TREMBL是對(duì)Swiss-Prot蛋白質(zhì)序列數(shù)據(jù)庫的增補(bǔ),含有EMBL核酸序列數(shù)據(jù)庫中尚未出現(xiàn)于Swiss-Prot的所有編碼區(qū)(CDS)的翻譯序列,可以看作是Swiss-Prot 的前言部分,今后都可能升級(jí)到標(biāo)準(zhǔn)Swiss-Prot 中,故而全分配有Swiss-Prot 訪問代碼. 目前的第3版TREMBL源于第50版EMBL核酸序列數(shù)據(jù)庫,有126 995條序列34 178 645個(gè)氨基酸殘基. 它分成兩個(gè)部分:SP-TREMBL(104 865)是肯定要轉(zhuǎn)入Swiss-Prot 的,包含fun.dat (真菌)、hum.dat (人)、inv.dat (無脊椎動(dòng)物)、mam.dat (其他哺乳動(dòng)物)、mhc.dat(MHC蛋白)、org.dat (細(xì)胞器)、phg.dat (噬菌體)、pln.dat (植物)、pro.dat (原核生物)、rod.dat (嚙齒動(dòng)物)、vrl.dat (病毒)、vrt.dat (其他脊椎動(dòng)物)等文件,已經(jīng)可以在EBI的FASTA服務(wù)器上搜索,不久也將能在BLITZ服務(wù)器上搜索;REMTREMBL則是不準(zhǔn)備收入Swiss-Prot 的其他數(shù)據(jù). TREMBL站點(diǎn)位于
http://www.ebi.ac.uk/srs/srsc/和ftp://ftp.ebi.ac.uk/pub/databases/trembl/.
與生物催化和生物降解相關(guān)的數(shù)據(jù)庫站點(diǎn)有:UM-BBD ,即Minnesota大學(xué)生物催化和生物降解數(shù)據(jù)庫(University of minnesota biocatalysis/biodegradation database),提供關(guān)于微生物酶與代謝通路的信息,位于http://dragon.labmed.umn.edu/~lynda/index.html;EcoCyc,大腸桿菌基因和代謝百科全書(Encyclopedia of Escherichia coli Genes and Metabolism),是一個(gè)匯集了所有已知的關(guān)于大腸桿菌基因和中間代謝的數(shù)據(jù)的大型知識(shí)庫,它位于http://www.ai.sri.com/ecocyc/ecocyc.html;GenoBase Selkov EMP,是GenoBase數(shù)據(jù)庫通道(GenoBase Database Gateway)中一個(gè)經(jīng)過索引的、關(guān)于酶與代謝通路(Enzymes and Metabolic Pathways)的數(shù)據(jù)庫,處于http://specter.dcrt.nih.gov:8004/Pathway/pathway_toc_by_name.html;KEGG,日本的基因和基因組京都百科全書(Kyoto Encyclopedia of Genes and Genomes),內(nèi)容包括代謝通路圖譜、分子編目表、基因編目表、基因組圖譜等數(shù)據(jù),它被放置于http://www.genome.ad.jp/kegg/kegg1.html;SoyBase,是植物基因組計(jì)劃(Plant genome program)中的一部分 花生計(jì)劃(Soybean roject)研究數(shù)據(jù)的集合,可以在http://probe.nal.usda.gov: 8000/plant/aboutsoybase.html看到詳細(xì)內(nèi)容;Swiss-Prot,是帶有注釋的、具有最小冗余的、與其他數(shù)據(jù)庫的整合度很高的蛋白質(zhì)序列數(shù)據(jù)庫,在http://www.expasy.ch/sprot/sprottop.html;以及WIT (What is there),是一個(gè)基于最近的關(guān)于細(xì)菌全基因組序列的足夠了解、在WWW上設(shè)計(jì)實(shí)現(xiàn)的交互式代謝重構(gòu)模型,它位于http://www.cme.msu.edu/WIT/.
最新的整合型鼠基因組的遺傳圖譜和物理圖譜數(shù)據(jù)庫(Genetic and physical maps of mouse genome data)第14版已經(jīng)被放在了http://www.genome.wi.mit.edu/cgi-bin/mouse/ index. 位于右側(cè)的鼠遺傳圖譜包括了定位于Ob x Cast F2雜交系的6331種簡(jiǎn)單序列長(zhǎng)度多態(tài)性(Simple sequence length polymorphism, SSLP),平均分辨率1.1 cM. 位于左側(cè)的Copeland/Jenkins圖譜包括了定位于Spretus回交系的2 342個(gè)分子標(biāo)記,將近多一半的是SSLP,另一半的是RFLP, 既可以分子標(biāo)記的名稱,也可以分子標(biāo)記的位置/多態(tài)性進(jìn)行檢索. 鼠STS物理圖譜包含了來源于平均插入片段長(zhǎng)度約為820 kb的酵母人工染色體(YAC)克隆文庫的超過6 000種的STS,可分別以分子標(biāo)記的名稱、YAC的位置或YAC的名稱進(jìn)行檢索.
位于http://www.mpimg-berlin-dahlem.mpg.de/~andy/GN/的基因組導(dǎo)航者(Genome navigator)是提供到達(dá)含有關(guān)于人類基因組、鼠基因組和酵母基因組等的物理圖譜和遺傳圖譜信息的主要數(shù)據(jù)庫的視化的交互式通道. 它使用基于Java小控件(applet)的通用性程序DerBrowser來顯示和導(dǎo)引這些生物的多種不同類型的基因組圖譜. 除了常規(guī)功能以外,它的一個(gè)特別之處就是還能讓用戶查詢外部的相關(guān)數(shù)據(jù)庫中存在的任一圖譜,目前的數(shù)據(jù)來源已經(jīng)包括:麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)基因組研究中心的Whitehead生物醫(yī)學(xué)研究所(Whitehead Institute for Biomedical Research, Whitehead/MIT),約翰·霍普金斯大學(xué)醫(yī)學(xué)院(Johns Hopkins University School of Medicine)的基因組數(shù)據(jù)庫(Genome database, GDB),Jean Dausset基金會(huì)(Fondation Jean Dausset)的人類基因組多態(tài)性研究中心(Centre d‘Etudes du Polymorphisme Humain, CEPH)和Genethon研究所的infoclone,人類基因連鎖研究合作中心(Cooperative Human Linkage Center, CHLC),美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)的人類轉(zhuǎn)錄本圖譜(Human transcript map, HTM),以及其他一些專門收錄人類染色體信息的數(shù)據(jù)庫;歐洲合作種間鼠回交(European collaborative interspecific mouse Backcross, EUCIB)計(jì)劃的鼠回交數(shù)據(jù)庫(Mouse Backcross Database, MBx),斯坦福大學(xué)醫(yī)學(xué)院(Stanford University School of Medicine)的酵母基因組數(shù)據(jù)庫(Saccharomyces Genome Database, SGD),Proteome公司的酵母蛋白質(zhì)數(shù)據(jù)庫(Yeast Protein Database, YPD),Max-Planck研究所的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Centre for Protein Sequences, MIPS),全自動(dòng)分析生物序列的GeneQuiz服務(wù)器等.
能提供啤酒酵母(Saccharomyces cerevisiae)蛋白質(zhì)三維結(jié)構(gòu)信息的酵母基因組數(shù)據(jù)庫SGD已經(jīng)可以在http://genome-www.stanford.edu/Sacch3D/找到. 其特性包括:(1)以基因名稱、開放讀碼框架(ORF)名稱、染色體編號(hào)、文字等形式檢索酵母基因組中任一蛋白質(zhì)的潛在的結(jié)構(gòu)信息;(2)使用RasMol或基于Java的顯示程序交互地觀察結(jié)構(gòu)信息;(3)瀏覽全部已經(jīng)收錄于PDB結(jié)構(gòu)數(shù)據(jù)庫中的啤酒酵母蛋白質(zhì);(4)以到達(dá)NCBI的MMDB,SCOP,Swiss-Prot等面向結(jié)構(gòu)的其他數(shù)據(jù)庫的鏈接. 總體上看,已知的結(jié)構(gòu)信息還是相當(dāng)稀少的,目前在酵母基因組中只有12%的蛋白質(zhì)與已知結(jié)構(gòu)的蛋白質(zhì)之間呈現(xiàn)顯著的序列相似性.但隨著更多的新的蛋白質(zhì)結(jié)構(gòu)被測(cè)定和檢測(cè)結(jié)構(gòu)相似性技術(shù)的改進(jìn),這個(gè)數(shù)字必將增長(zhǎng).
IUBio檔案是一個(gè)生物數(shù)據(jù)和軟件的檔案庫,囊括了各種各樣的大眾化的瀏覽、檢索和傳輸軟件、分子數(shù)據(jù)、生物學(xué)新聞和文件,其互聯(lián)網(wǎng)地址是iubio.bio.indiana.edu (magpie 129.79.225.200). 分子生物學(xué)是這里的焦點(diǎn),它也同時(shí)是果蠅研究數(shù)據(jù)的一個(gè)大本營(yíng). 這里維護(hù)著可在所有計(jì)算機(jī)上運(yùn)行的一些對(duì)于生物學(xué)挺重要的軟件:公共軟件使用的分類包括了生物學(xué)、化學(xué)、科學(xué)、應(yīng)用程序等;而分子生物學(xué)部分使用的分類包括了對(duì)齊、密碼子、自動(dòng)測(cè)序、瀏覽、一致序列、進(jìn)化、模式、引物、限制酶、RNA折疊、檢索、IBM-PC,Mac,M$win, Unix,Vax等;檢索服務(wù)包括了GenBank核酸數(shù)據(jù)庫、Swiss-Prot和PIR蛋白質(zhì)數(shù)據(jù)庫、Bionet新聞組、序列檢索系統(tǒng)SRS和SRS-FASTA. 它的專門的果蠅基因組數(shù)據(jù)庫FlyBase位于http://flybase.bio.indiana.edu/ (firefly 129.79.225.202).
3 生物計(jì)算
就目前的數(shù)學(xué)和計(jì)算機(jī)科學(xué)的能力而言,對(duì)數(shù)據(jù)容量達(dá)到上十億字節(jié)的數(shù)據(jù)庫進(jìn)行生物計(jì)算仍然是一項(xiàng)很艱巨的任務(wù). 雖然最簡(jiǎn)單的序列比較可以被簡(jiǎn)化成字符串匹配的算法,以及將模式識(shí)別和神經(jīng)網(wǎng)絡(luò)等先進(jìn)算法也運(yùn)用其中,但是擴(kuò)展的和多重的序列比較還是處于試驗(yàn)摸索中. 理論上有希望的、通過量子化學(xué)算法預(yù)測(cè)蛋白質(zhì)的空間折疊的方法靠現(xiàn)有的計(jì)算能力尚無法成為現(xiàn)實(shí), 因?yàn)檫@些都需要數(shù)學(xué)與純計(jì)算機(jī)效能上的新突破.
大分子設(shè)計(jì)和模建算法讓曾經(jīng)致力于分子力學(xué)和分子模型構(gòu)建的應(yīng)用數(shù)學(xué)家、物理學(xué)家、化學(xué)家和生物學(xué)家走到了一起. 現(xiàn)在的重點(diǎn)和挑戰(zhàn)在于如何獲得高增益、高效率、高可信度的蛋白質(zhì)、核酸和多聚體的模擬算法. 分子力學(xué)的高級(jí)時(shí)間步長(zhǎng)法(advanced time-stepping)、靜電學(xué)、經(jīng)典量子力學(xué)、結(jié)構(gòu)確定(structure determination)、自由能和整體集群計(jì)算(ensemble calculations)等,都是可能的突破點(diǎn).
分子圖形和模型學(xué)是生物信息學(xué)和藥物設(shè)計(jì)的重要部分. 當(dāng)基因組學(xué)的成就被應(yīng)用于合理目標(biāo)鑒別時(shí),蛋白質(zhì)結(jié)構(gòu)相似性和結(jié)構(gòu)預(yù)測(cè)、確定蛋白質(zhì)-蛋白質(zhì)相互作用、識(shí)別類似的和同源的蛋白質(zhì)折疊等方法都會(huì)顯著地影響最后的結(jié)果. 自動(dòng)同源模建和結(jié)構(gòu)-功能預(yù)測(cè)也需要更多的努力,并利用趨于成熟的神經(jīng)網(wǎng)絡(luò)方法來實(shí)現(xiàn).
先是可在本地的個(gè)人機(jī)或工作站上運(yùn)行的生物計(jì)算軟件和程序,下一部分側(cè)重于通過互聯(lián)網(wǎng)絡(luò)的在線計(jì)算.
(1) 日常數(shù)據(jù)維護(hù). 為生命科學(xué)研究人員實(shí)現(xiàn)全方位計(jì)算能力的軟件工具Prophet 5.0,提供適合于數(shù)據(jù)管理和視化、包括從簡(jiǎn)單描述性的統(tǒng)計(jì)處理到多元方差分析(Multi-factor ANOVA),logistic回歸和非線性模型分析等多種統(tǒng)計(jì)分析. 它配備了多序列對(duì)齊、翻譯、限制酶和蛋白水解酶酶切分析、PCR引物設(shè)計(jì)、BLAST檢索、遠(yuǎn)程數(shù)據(jù)庫檢索等生物序列分析工具. 全功能的Prophet 5.0程序可以從http://www-prophet.bbn.com/下載,可免費(fèi)使用60 d. 其支持和即將支持的Unix平臺(tái)包括SUN/Solaris 2.4,DEC Alpha/Digital Unix和Silicon Graphics/Irix 6.2等. 這個(gè)綜合性的數(shù)據(jù)分析軟件包以快速易用為特點(diǎn):會(huì)用鼠標(biāo)就會(huì)用Prophet.
由http://www.unizh.ch/vetvir/plugin.html可下載一些能加快實(shí)驗(yàn)室日常工作、用于蘋果Mac機(jī)或Windows系統(tǒng)的瀏覽器(Netscape 2.x和Internet Explorer 2.x)的免費(fèi)插件(plugin)程序,安裝后再連接到http://www.unizh.ch/vetvir/programs.html. 其功能包括:酶切預(yù)覽(根據(jù)用戶使用的限制性酶和DNA的核苷酸序列在虛擬的瓊脂糖凝膠上電泳,用戶可以在到紫外燈箱拍照前知道凝膠上出現(xiàn)條帶的理論位置);稀釋計(jì)算(任何濃度的溶液稀釋配比計(jì)算);接頭設(shè)計(jì)(得到一個(gè)用于插入序列連接的、無自連末端的接頭序列)等.
質(zhì)粒處理器(Plasmid processor)是專門繪制科研與教育用質(zhì)粒圖譜的簡(jiǎn)單程序. 可以輸入線形或圓形質(zhì)粒,任意定義限制位點(diǎn)、基因位點(diǎn)和多克隆位點(diǎn),任意插入或缺失部分片段.輸出的質(zhì)粒圖譜可復(fù)制到剪貼板上,也可以存盤以便后用,或通過程序內(nèi)置的打印模塊打印. 壓縮的程序包plasp102.zip(約239 kB)可以從http://www.uku.fi/~kiviraum/plasmid/plasmid.html下載.
(2) 序列對(duì)齊. 基于“近似字符串匹配(Approximate string matching)”算法的Cleanup 1.8能夠確定從核苷酸序列數(shù)據(jù)庫中指定的任何一對(duì)序列間的整體同源性,并自動(dòng)從冗余數(shù)據(jù)庫中生成一組純化的無冗余的核苷酸序列集萃. 冗余問題一向是序列組間比較的關(guān)鍵概念,無冗余序列無疑對(duì)進(jìn)行統(tǒng)計(jì)學(xué)分析和加快廣泛性檢索核苷酸序列數(shù)據(jù)庫的速度非常有益. 所有公開的數(shù)據(jù)庫都會(huì)存有同一序列或近似于相同序列的多個(gè)不同條目,基于這種偏倚數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析往往會(huì)有很高的將不顯著視為顯著的危險(xiǎn)性. 為了實(shí)現(xiàn)無偏倚的統(tǒng)計(jì)學(xué)分析和進(jìn)行更有效的數(shù)據(jù)庫檢索,必須使用經(jīng)過純化的無冗余序列數(shù)據(jù). 然而實(shí)際操作中對(duì)生物序列數(shù)據(jù)冗余性的定義難免含混、不易確切,Cleanup就使用了一個(gè)基于序列相似性程度的定量指標(biāo)來描述冗余性:一旦用戶給出一個(gè)閾值,那么顯示出一定的相似性而且與數(shù)據(jù)庫中的另一較長(zhǎng)序列間存在重疊的序列就被認(rèn)為是冗余序列. 從互聯(lián)網(wǎng)上下載此程序的地址是ftp://area.ba.cnr.it/pub/embnet/software/Cleanup/.
大規(guī)模序列比較軟件包(Large Scale Sequence Comparison Package) LASSAP (位于http://www-rocq.inria.fr/genome/)是一個(gè)跨越多種Unix平臺(tái)(SGI/Irix,SUN/Solaris,IBM/AIX,DEC/Digital Unix等)的新穎而全面的序列比較軟件包. 它使用了目前所有主要的序列比較算法:BLAST,F(xiàn)ASTA,Smith-Waterman動(dòng)態(tài)變程、Needleman/Wunsch法、K-best對(duì)齊法、字符串匹配(主要針對(duì)冗余問題)、模式匹配算法(譬如搜索ProSite特征模式)等. LASSAP中的所有算法都是基于成對(duì)比較、且不同算法間的優(yōu)勢(shì)能共享以外,還具備:1) 數(shù)據(jù)庫內(nèi)或庫間比較(數(shù)據(jù)庫既可以是來源于一個(gè)大數(shù)據(jù)庫的一套序列,也可以是單獨(dú)的一條序列);2)直接計(jì)算(選擇和計(jì)算部分還有待完善);3) 序列翻譯(可使用不同遺傳密碼);4) 結(jié)構(gòu)化的計(jì)算結(jié)果和強(qiáng)大的再分析能力(支持3種輸出格式:含有對(duì)齊序列的全文本;每行一對(duì)結(jié)果的壓縮文本,便于使用grep,awk或perl等過濾程序;結(jié)構(gòu)化的標(biāo)準(zhǔn)格式,便于繼續(xù)進(jìn)行cluster等復(fù)雜而深入的分析);5) 并行計(jì)算和利用特殊硬件設(shè)備而使性能加強(qiáng)(基礎(chǔ)版本的LASSAP適合一般應(yīng)用,優(yōu)化算法的并行版本則適合處理復(fù)雜的大規(guī)模問題,特別是專門用于Smith-Waterman算法的優(yōu)化還利用了SUN的視頻指令集). 同時(shí),它提供的應(yīng)用編程接口(API)允許用戶植入任何其他基于成對(duì)比較的算法(公用API不久就會(huì)發(fā)行). 因此,LASSAP是為滿足大規(guī)模序列數(shù)據(jù)分析、克服目前序列比較程序所受限制而設(shè)計(jì)的可編程的高效應(yīng)用系統(tǒng). 使用LASSAP的成功范例已有:蛋白質(zhì)結(jié)構(gòu)域分析ProDom的建立(http://protein.toulouse.inra.fr/),微生物基因組的窮舉比較(Protein Science, Vol 6, Suppl 1, April 1997),TREMBL中的亞片段匹配問題(Proceedings of ISMB 97 Conference, June, Greece),等.
蛋白質(zhì)多序列編輯器(Protein multiple sequence editor) ProMSED2是運(yùn)行于Windows 3.11/95平臺(tái)的能自動(dòng)或手動(dòng)完成DNA和蛋白質(zhì)序列對(duì)齊、編輯、比較和分析的應(yīng)用程序.它能讀入幾種常見格式(NBRF/PIR,F(xiàn)ASTA,MSF,EMBL/Swiss-Prot ,Intelligenetics和Clustal等)的序列數(shù)據(jù),自動(dòng)進(jìn)行對(duì)齊、對(duì)齊結(jié)果的視化和編輯,還可以在保持原來對(duì)齊區(qū)域不變的同時(shí)交互地對(duì)齊其他部分. 其用戶界面友好,手動(dòng)對(duì)齊和序列分析時(shí)用不同的顏色組表示氨基酸序列在突變、理化等性質(zhì)上相似的位點(diǎn),是一套能方便地完成序列的對(duì)齊、分析、視化、編輯和制圖的小巧而靈活的工具程序. 它的下載地址是ftp://ftp.ebi.ac.uk/pub/software/dos/promsed/prsed2_.exe.
(3) 分子結(jié)構(gòu)視化. LoopDloop是一個(gè)描繪分子生物學(xué)中RNA二級(jí)結(jié)構(gòu)的程序,它讀入含有堿基配對(duì)信息的生物序列數(shù)據(jù),顯示出RNA分子的二級(jí)結(jié)構(gòu),并允許對(duì)結(jié)構(gòu)進(jìn)行修飾、美化等編輯. 但是這個(gè)程序自己沒有預(yù)測(cè)二級(jí)結(jié)構(gòu)中堿基配對(duì)的功能,因?yàn)橥ㄟ^RNAFold,MulFold和多序列對(duì)齊編輯器等其他軟件可以完成這種工作. 該軟件的下載地址在http://iubio.bio.indiana.edu/IUBioSoftware+Data/molbio/loopdloop/java/,或ftp://iubio.bio.indiana. edu/molbio/loopdloop/java/.
僅僅從平面圖形提供的信息是很難清楚蛋白質(zhì)、DNA、RNA的三維立體結(jié)構(gòu)以及它們之間相互作用的,而深刻掌握結(jié)構(gòu)又是對(duì)理解功能相當(dāng)重要的. 現(xiàn)在許多免費(fèi)軟件已經(jīng)有了顯示生物分子的醒目而具備深度感與動(dòng)感的三維立體的空間填充(space filling)彩色視圖的能力. RasMol (http://www.umass.edu/microbio/rasmol/)就是其中之一,它能在多種Windows平臺(tái)和Mac機(jī)上運(yùn)行,同時(shí)免費(fèi)提供全部的源程序代碼以鼓勵(lì)改進(jìn)和自行開發(fā). Chime (http://www.umass.edu/microbio/chime/)則可以將預(yù)先定制的帶有注解的分子圖譜轉(zhuǎn)換成為新穎的網(wǎng)上教程. 其他各種網(wǎng)上應(yīng)用的圖形工具可以在http://www.umass.edu/microbio/rasmol/ emweb.htm得到.
(4) 基因組分析. 蛋白質(zhì)展開、描述和分析工具(Protein extraction, description and analysis tool) PEDANT是專門為了實(shí)現(xiàn)對(duì)全基因組的序列進(jìn)行計(jì)算分析而設(shè)計(jì)的,它位于http://pedant.mips.biochem. mpg.de/frishman/pedant.html. 目前它已經(jīng)分析了9套全部的、1套質(zhì)粒的和2套部分的基因組:啤酒酵母(S. cerevisiae)、生殖道支原體(Mycoplasma genitalium)、肺炎支原體(Mycoplasma pneumoniae)、甲烷球菌(Methanococcus jannaschii)、粘囊菌(Synechocystis sp.)、流感桿菌(Haemophilus influenzae)、大腸桿菌(E. coli)、幽門螺旋桿菌(Helicobacter pylori)、甲烷細(xì)菌(Methanobacterium thermoautotrophicum)、根瘤菌(Rhizobium sp.)的質(zhì)粒、部分枯草桿菌(Bacillus subtilis)、部分硫葉菌(Sulfolobus solfataricus)等. 它以序列比較和序列預(yù)測(cè)結(jié)合起來的組合判別法為工具,對(duì)已經(jīng)全部測(cè)序的基因組上所預(yù)測(cè)的ORF進(jìn)行窮舉形式的功能性和結(jié)構(gòu)性分類;其ORF的功能性預(yù)測(cè)主要依據(jù)于FASTA2相似性搜索,并輔以ProSite模式和motif檢測(cè)、與保守序列塊的比較等;最后將序列與最顯著相關(guān)的PIR條目相偶聯(lián),從而并入某一個(gè)PIR超家族之中. 它還能功能性地依據(jù)對(duì)幾個(gè)經(jīng)過手工歸入功能性類群的定性的細(xì)菌和酵母的主基因集合(curated master gene set)的相似性檢索將基因產(chǎn)物分類,并通過對(duì)賦有二級(jí)結(jié)構(gòu)的STRIDE數(shù)據(jù)庫的每一個(gè)序列運(yùn)用Smith-Waterman相似性比較算法,預(yù)測(cè)二級(jí)結(jié)構(gòu)、跨膜區(qū)域、低復(fù)雜性區(qū)域和無規(guī)卷區(qū)區(qū)域,以及抽取出可知的三維結(jié)構(gòu)信息.
(5) 基因模式識(shí)別. Procrustes 4.01是為支持實(shí)驗(yàn)性基因判定和提示性的定性基因預(yù)測(cè)的計(jì)算工作而設(shè)計(jì)的,它在http://www-hto.usc.edu/software/procrustes/. 其主要性能有:運(yùn)用Las Vegas基因預(yù)測(cè)法的準(zhǔn)確無誤的基因和exon判定;容錯(cuò)性的基因識(shí)別;基于GenePrimer軟件的能滿足大規(guī)模測(cè)序工程中利用PCR技術(shù)進(jìn)行基因判定的引物構(gòu)建;基于Cassandra軟件的能指導(dǎo)探針和PCR引物選擇的高特異性exon識(shí)別;通過局部切割后對(duì)齊從未完成的cosmid大小的基因組序列中識(shí)別出不完整基因;新穎的圖形輸出顯示多基因預(yù)測(cè)和實(shí)驗(yàn)性基因判定的結(jié)果;給基因預(yù)測(cè)打分以體現(xiàn)其可信程度;利用部分優(yōu)化的切割后對(duì)齊進(jìn)行多基因預(yù)測(cè);基于相似功能區(qū)域而不是整個(gè)蛋白質(zhì)的基因識(shí)別;不同種系的基因識(shí)別.
(6) 蛋白質(zhì)分析. Windows版的蛋白質(zhì)分析專家(Protein analyst for windows) ProAnWin是用于多個(gè)蛋白質(zhì)序列對(duì)齊、比較性序列分析、研究蛋白質(zhì)結(jié)構(gòu)-功能(基因型-屬性)關(guān)系和設(shè)計(jì)點(diǎn)突變的一個(gè)新程序. 它試圖找出蛋白質(zhì)或多肽的活性(或?qū)傩曰蛳嚓P(guān)表現(xiàn)型)與分子的一級(jí)結(jié)構(gòu)或三級(jí)結(jié)構(gòu)中某些特征的關(guān)系,其依據(jù)包括:從序列上看所歸屬的蛋白質(zhì)家族,與蛋白質(zhì)活性相關(guān)的一些參數(shù)(pK值、ED50、Km值等),和盡可能的、至少其中之一的三維結(jié)構(gòu)數(shù)據(jù)(假設(shè)全部同源蛋白質(zhì)都以共同的方式形成空間折疊). 主要目的就是要找出與蛋白質(zhì)活性變化相關(guān)聯(lián)的影響因子:活性調(diào)節(jié)位點(diǎn)的位置和該位點(diǎn)在結(jié)構(gòu)上的重要特性. ProAnalyst是為ProAnWin提供多功能的蛋白質(zhì)序列和結(jié)構(gòu)分析的擴(kuò)展模塊,它可以搜索motif、繪制理化關(guān)系圖、對(duì)蛋白質(zhì)的序列變異進(jìn)行語義分析和理化分析、繪出結(jié)構(gòu)-活性關(guān)系的剖析圖等. 這一套功能相關(guān)的軟件的下載地點(diǎn)有:[ProAnWin] ftp://ftp.ebi.ac.uk/pub/software/dos/proanwin或ftp://ftp.bionet.nsc.ru/pub/biology/vector/proanwin.dem/paw$.exe,[ProAnalyst] ftp://ftp.ebi.ac. uk/pub/software/dos/proanalyst,ftp://iubio.bio.indiana.edu/molbio/ibmpc/panalys1或ftp://ftp.bionet. nsc.ru/pub/biology/vector/proanaly.dem/panalys$,[ProMSED] ftp://ftp.ebi.ac.uk/pub/software/dos/ promsed,ftp://iubio.bio.indiana.edu/molbio/ibmpc/promsed1或ftp://ftp.bionet.nsc.ru/pub/biology/ vector/promsed.dem/promsed$.
(7) 蛋白質(zhì)結(jié)構(gòu)模建. 可以從http://www.nimr.mrc.ac.uk/~mathbio/a-aszodi/dragon.html下載的SGI版Dragon 4.17.7是一個(gè)基于“距離幾何學(xué)(Distance Geometry)”的蛋白質(zhì)模建程序. 它可以根據(jù)所給定的蛋白質(zhì)序列、二級(jí)結(jié)構(gòu)和一套殘基間距離的限定矩陣(如果有的話),預(yù)測(cè)小分子量可溶蛋白質(zhì)的三級(jí)結(jié)構(gòu). 如果序列中的一部分結(jié)構(gòu)在多序列對(duì)齊中能夠找到同源,就可以試著對(duì)比模建(comparative modeling). 它以一個(gè)簡(jiǎn)單的命令行作為人機(jī)交互界面,接受參數(shù)和輸入文件名等.
(8) 神經(jīng)網(wǎng)絡(luò). 神經(jīng)網(wǎng)絡(luò)通過編程模擬神經(jīng)元的行為,是生物計(jì)算中較新的技術(shù)之一. 開始的工作往往是先利用Genesis,Neuron,XPP或其他可以在Unix工作站上運(yùn)行的類似的軟件包,建立許多單一的神經(jīng)元模型,聯(lián)接為網(wǎng)絡(luò),并組成神經(jīng)系統(tǒng). 接下來是建立亞細(xì)胞處理模型,從模擬簡(jiǎn)單回路直到大型神經(jīng)元網(wǎng)絡(luò),甚至構(gòu)建系統(tǒng)水平的整個(gè)大腦的模型. 然后這個(gè)神經(jīng)網(wǎng)絡(luò)就可以根據(jù)需要通過不斷的訓(xùn)練和學(xué)習(xí)來加以完善,直至可以預(yù)測(cè)出滿意的結(jié)果.
4 在線生物計(jì)算
(1) 蛋白質(zhì)家族鑒定. 基因家族鑒定程序網(wǎng)絡(luò)版(Gene family identification network design) GeneFIND (http://diana.uthct.edu/genefind.html)是一個(gè)綜合了幾種檢索/對(duì)齊程序、基于ProClass數(shù)據(jù)庫(http://diana.uthct.edu/proclass.html)、提供快速而有意義的、帶有充足的家族分類信息的檢索結(jié)果的數(shù)據(jù)庫檢索系統(tǒng). 它應(yīng)用了多層次的過濾程序:先從最快速的MotiFind神經(jīng)網(wǎng)絡(luò)開始,接著是BLAST搜索、Smith-Waterman序列對(duì)齊(SSearch)和motif模式搜索. 該服務(wù)器目前提供了多達(dá)942種不同蛋白質(zhì)家族的大規(guī)模在線序列鑒定. HTML形式的檢索結(jié)果包括:全局和motif得分、針對(duì)所有ProSite蛋白質(zhì)種屬的所有最為匹配的成員清單、所屬PIR超家族、motif模式匹配情況和指向?qū)?yīng)ProClass家族數(shù)據(jù)記錄的鏈接.
(2) 蛋白質(zhì)空間折疊識(shí)別. FEBS蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)1997 (http://predict.sanger.ac.uk/irbmcourse97/)的先驅(qū)者們希望能盡可能多地利用最新的折疊識(shí)別和從頭預(yù)測(cè)(ab initio prediction)等方法學(xué)上的進(jìn)展,對(duì)一些具有生物學(xué)價(jià)值的蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè). 如果有個(gè)蛋白質(zhì)還沒有任何實(shí)驗(yàn)性的結(jié)構(gòu)信息,也沒有與已知結(jié)構(gòu)的任何蛋白質(zhì)表現(xiàn)出同源性,不如將其序列呈送到http://predict.sanger.ac.uk/irbm-course97/看看是否會(huì)有所幫助. 想看看對(duì)目前已收到的113個(gè)目標(biāo)樣本的自動(dòng)分析和對(duì)其中17個(gè)已經(jīng)作出的預(yù)測(cè)結(jié)果,可以瀏覽http://predict.sanger.ac.uk/irbm-course95/.
(3) 快速數(shù)據(jù)庫檢索. 最新發(fā)行的FASTA (ver 3.0)及其以前材料現(xiàn)在都可以在http://www.techfak.uni-bielefeld.de/bcd/Lectures/pearson3.html,http://www.biotech.ist.unige.it/bcd/Lectures/pearson3. html或者h(yuǎn)ttp://merlin.mbcr.bcm.tmc.edu:8001/bcd/Lectures/pearson3.html找到. 與流行的NCBI的BLAST算法相比,F(xiàn)ASTA 3.0已經(jīng)修正了序列長(zhǎng)度對(duì)數(shù)據(jù)庫相似性得分的影響;下一步的發(fā)展將是在快速數(shù)據(jù)庫檢索中加入對(duì)長(zhǎng)程蛋白質(zhì)間同源性識(shí)別的策略,以及對(duì)各種方法輸出結(jié)果的解釋所需的一些參考提示信息.
(4) 基因組數(shù)據(jù)庫檢索. 大腸桿菌(E. coli)全基因組測(cè)序于一月份的最后一個(gè)星期完成了,這對(duì)于分子生物學(xué)家有著特殊的意義,因?yàn)榇竽c桿菌的絕大部分基因的功能已經(jīng)被實(shí)驗(yàn)研究所確定了,而其他基因組則還主要依賴于同源性來確定功能. 已經(jīng)和接近完成的基因組包括:啤酒酵母(S. cerevisiae)、甲烷球菌(M. jannaschii)、大腸桿菌(E. coli)和枯草桿菌(B. subtilis). 在http://bmerc-www.bu.edu/genome/genomeblastp.html,http://bmerc-www.bu.edu/genome/ecoli-keyword.html或http://www.tiac.net/users/mammon/index.html,使用BLAST接口程序,可以將您的序列提交BLASTP并針對(duì)這些基因組的兩套公認(rèn)的ORF進(jìn)行搜索:針對(duì)注釋的ORF (Against Annotated ORF)或針對(duì)未注釋的ORF (Against Unannotated ORF). 輸出結(jié)果包括原始的BLAST輸出和對(duì)呈現(xiàn)顯著BLAST匹配的詳細(xì)參考信息(一般含有一個(gè)參考號(hào)碼,如果有注釋的話還帶有蛋白質(zhì)序列和ORF處的DNA序列等).
(5) 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè). 位于http://www.biokemi.su.se/~server/DAS/的服務(wù)器使用基于“密度對(duì)齊的表面(Dense alignment surface, DAS)”算法的預(yù)測(cè)方法定位蛋白質(zhì)中的跨膜區(qū)域. 其特點(diǎn)是無需多序列對(duì)齊或是正電荷內(nèi)置法則(positive inside rule)的任何信息,就可以達(dá)到其他最有效的預(yù)測(cè)方法的效能.
5 人工生命
因?yàn)闃?gòu)造一個(gè)活細(xì)胞的知識(shí)目前尚未具備,這里所謂“人工生命”指的是機(jī)器人學(xué)的機(jī)械模型及其所配備的人工智能的計(jì)算機(jī)大腦. 今日的人工智能機(jī)器人學(xué)受到了生物學(xué)和心理學(xué)的許多概念的啟發(fā),故而將構(gòu)造或者行為設(shè)計(jì)上受生物學(xué)啟發(fā)的機(jī)器人稱為“動(dòng)物機(jī)器人(Animats)”. “計(jì)算神經(jīng)生態(tài)學(xué)(Computational neuroethology)”和“合成心理學(xué)(Synthetic psychology)”等術(shù)語在機(jī)器人學(xué)中越來越頻繁出現(xiàn)的今天,探討一下生物學(xué)和心理學(xué)的知識(shí)如何應(yīng)用于機(jī)器人學(xué)和機(jī)器人學(xué)實(shí)驗(yàn)將會(huì)反過來帶給生物學(xué)和心理學(xué)什么樣的頓悟,也許會(huì)很有意思. 有興趣就請(qǐng)到http://www.cogs.susx.ac.uk/ecal97/.
6 生物信息
除了關(guān)于DNA和蛋白質(zhì)的分子生物學(xué)數(shù)據(jù)庫和有關(guān)生物計(jì)算的軟件與在線服務(wù)以外,還有其他形式的生物信息可供利用,從一般的醫(yī)療話題到簡(jiǎn)單易用的討論組、為每一位關(guān)心生物學(xué)進(jìn)展的人提供論壇的新聞組等. 離子通道毒劑(ion channel toxin)、生物物理軟件、在線的離子通道文章等內(nèi)容已經(jīng)都加入到了位于http://qlink.queensu.ca/~4jch3/的“離子通道網(wǎng)頁(Ion channel webpage)”. 其上安裝的分子顯示程序提供離子通道毒劑的三維投射圖象,且能按指令旋轉(zhuǎn). 更有特色的是它的離子通道研究者之頁、離子通道論壇、離子通道文獻(xiàn)列表和序列分析等,是離子通道研究的信息之窗.
位于http://www.graylab.ac.uk/cancerweb.html的癌癥研究網(wǎng)頁CancerWEB為患者、臨床醫(yī)師和科學(xué)研究人員提供了很多有用的信息和資源. 它組織有序并自帶一個(gè)快速搜索引擎用以檢索和定位目標(biāo)文檔. 它也是NCI PDQ數(shù)據(jù)庫在英國(guó)的redistributor,即CancerNET UK,因此擁有CancerNET和CancerLIT文件. 全部章節(jié)都可以比較容易地從主頁、給臨床醫(yī)師的信息(http://www.graylab.ac.uk/cancerweb/clinical.html)、給患者的信息(http://www. graylab.ac.uk/cancerweb/patients.html)等部分找到. CancerWEB的SiteNET (http://www.graylab. ac.uk/cancerweb/sitenet.html)是一個(gè)綜合性的、按照地理位置排布的與癌癥有關(guān)的學(xué)術(shù)研究所、醫(yī)院的列表和匿名FTP站點(diǎn). CancerWEB圖書館(http://www.graylab.ac.uk/cancerweb/ library.html)則指向CancerLIT文件和其他可供研究人員參考的信息資源. CancerWEB教育資源(http://www.graylab.ac.uk/cancerweb/educate.html)鏈接到其他含有高質(zhì)量的、與一些如腫瘤學(xué)等醫(yī)學(xué)專業(yè)教育有關(guān)的信息的站點(diǎn). 全球癌癥研究(http://www.graylab.ac.uk/cancerweb/ further.html)按照腫瘤類型將與癌癥研究相關(guān)的WWW鏈接作成了一張大表.
CCP11計(jì)劃是英國(guó)協(xié)作計(jì)算計(jì)劃(Collaborative Computational Project, CCP)中的生物序列和結(jié)構(gòu)分析部分,它的新主頁位于http://www.dl.ac.uk/CCP/CCP11/,對(duì)于從事計(jì)算分子生物學(xué)的科學(xué)工作者很有益處.
分子科學(xué)虛擬學(xué)校(Virtual School of Molecular Sciences, VSMS)已經(jīng)開始提供Java和XML這兩個(gè)在今天的WWW上最具動(dòng)感的新技術(shù)的虛擬課程(http://www.vsms.nottingham.ac. uk/vsms/java/),目的是讓科學(xué)界各學(xué)科的信息發(fā)布者和編程人員充分發(fā)揮Java和XML的威力,改進(jìn)科技信息發(fā)表、傳播、轉(zhuǎn)化、應(yīng)用和存貯的方式方法. 所以這個(gè)課程不僅是為了學(xué)習(xí)這兩種新技術(shù),更是要告訴人們不遠(yuǎn)的將來信息革命的前景. VSMS是基于Nottingham大學(xué)、擁有一大批咨詢專家、合作者、教師和贊助者的虛擬社群,不斷地將最新出現(xiàn)的技術(shù)成果以虛擬教育這樣一種優(yōu)于常規(guī)手段的形式推廣到受過大學(xué)教育的人群中.
歐洲結(jié)構(gòu)生物學(xué)(Structural biology in europe, STRUBE)討論組和新藥發(fā)現(xiàn)與蛋白質(zhì)科學(xué)(Drug discovery and protein science, DDPS)會(huì)議年表已經(jīng)有了在線服務(wù),在http://www. biodigm.com/strube.htm.
最近一次的關(guān)于開放式外殼計(jì)算的量子化學(xué)大會(huì)(Quantum chemistry symposium on openshell calculations)上,量子化學(xué)界領(lǐng)頭的專家們共同討論了在這個(gè)正高速發(fā)展的領(lǐng)域內(nèi)的一些最新進(jìn)展. 包括所有張貼報(bào)告、會(huì)談?wù)碗娮訌堎N在內(nèi)的全部活動(dòng)都已由分子設(shè)計(jì)電子會(huì)議(The molecular modeling e-conference, TMMeC,ISSN 0797-9274)記錄在案. 若欲了解詳細(xì)情況或訪問此次大會(huì)的WWW網(wǎng)頁,您可以到http://129.43.50.12/tmmec/或http://129.43.50.11/tmmec/mirrors.html (美國(guó))、http://164.73.160.8/tmmec/mirrors.html (烏拉圭)、http://130.206.125.40/tmmec/mirrors.html (西班牙)、http://192.54.49.75/tmmec/mirrors. html (德國(guó)).
著名的GenStructure新聞組的宗旨是為圍繞和涉及基因組與染色質(zhì)結(jié)構(gòu)和功能的話題提供一個(gè)討論的論壇,讓從事于基因組染色質(zhì)結(jié)構(gòu)或相關(guān)領(lǐng)域的研究者們交流信息和思想,并拓展國(guó)內(nèi)與國(guó)際研究組織進(jìn)行合作的機(jī)會(huì). 當(dāng)前的討論話題包括:1) 基因組-染色質(zhì)的可操作性和重組;2) 細(xì)胞核的空間立體組織結(jié)構(gòu);3) DNA超螺旋和拓?fù)浣Y(jié)構(gòu)(三鏈、Z-DNA、十字、彎折等)對(duì)生物學(xué)過程的作用;4) 組蛋白、核小體和染色質(zhì)的結(jié)構(gòu)與功能;5) 區(qū)結(jié)構(gòu)域模型(Loop Domain Model)、隧道模型、百萬堿基巨型環(huán)區(qū)結(jié)構(gòu)域模型(Megabase giant loop model)等基因組結(jié)構(gòu)模型;6) 經(jīng)典的染色體部件及其與基因功能的關(guān)系;7) 基因組進(jìn)化;8) 影響基因組染色質(zhì)結(jié)構(gòu)的生物學(xué)意義重大的基因突變和基因敲除;9) 基因組-染色質(zhì)分析技術(shù);10) 染色質(zhì)-DNA結(jié)合蛋白及其對(duì)染色質(zhì)結(jié)構(gòu)和基因表達(dá)的作用;11) 核質(zhì)(NM)與核內(nèi)膜(NL);12) 基質(zhì)附著區(qū)(matrix attachment region, MAR)、結(jié)構(gòu)域邊界和基因座位;13) 位置效應(yīng)和擬等位反式(transvection)等現(xiàn)象;14) 后成(epigenetic)效應(yīng)對(duì)基因功能的作用;15) 劑量補(bǔ)償機(jī)制和X染色體失活;16) 染色質(zhì)結(jié)構(gòu)與DNA復(fù)制;17) 核包裝的特別技術(shù);18) DNA修復(fù)與染色質(zhì)結(jié)構(gòu);19) 基因組不穩(wěn)定性的機(jī)制等. 此外,該新聞組還提供關(guān)于本專業(yè)的會(huì)議消息、教材、網(wǎng)絡(luò)資源、可視資料、計(jì)算機(jī)程序、疑難解答、實(shí)踐指南等的分論壇.
美洲藥物治療和生產(chǎn)組織(Pharmecutical Research and Manufacturers of America, PhRMA http://www.phrma.org/)與美洲生物科學(xué)研究所(American Institute of Biological Sciences, AIBS http://www.aibs.org/)最近一起共同建立了一個(gè)提供最新基因組研究信息、名為“基因組學(xué) 全球的資源(Genomics A Global Resource)”的互聯(lián)網(wǎng)站點(diǎn)(http://www.phrma.org/ genomics/). 它隨時(shí)將新得到的、有用的、關(guān)于基因組學(xué)研究的信息發(fā)布出來,并維護(hù)一些經(jīng)過選擇的、指向世界各地的信息源的鏈接,為決策者和普通大眾提供一個(gè)動(dòng)態(tài)的、易于訪問的信息資源:基因治療和遺傳學(xué)取樣、檢測(cè)和篩選,以及關(guān)于生物多樣性遺傳學(xué)和保護(hù)瀕危物種的數(shù)據(jù).
7 生物信息學(xué)存在的問題與前景
獲得完全的序列和基因組成為可能以后,如何分析、解釋和可視化基因組序列的數(shù)據(jù)又提出了新的挑戰(zhàn). 非常必要的一件事是將各自的、獨(dú)立的、分散的基因組信息整合到一起來. 這些信息可以是計(jì)算性的或抽象性的,譬如關(guān)于生物學(xué)功能的解釋,像蛋白質(zhì)的功能,既不能計(jì)算出來也不能被驗(yàn)證. 這使得對(duì)這些復(fù)雜數(shù)據(jù)的整合和全面分析變得既耗時(shí)又依賴于技巧和知識(shí). 按照交叉學(xué)科建設(shè)的要求,計(jì)算機(jī)科學(xué)的技術(shù)和概念是解決這些難題所必需的. 分子生物學(xué)非常需要并行算法和并行數(shù)據(jù)庫系統(tǒng)的輔助,以及其他數(shù)學(xué)的、計(jì)算和實(shí)驗(yàn)方法方面的新工具.
對(duì)基因組部分或全面的序列測(cè)定結(jié)果迫切需要解釋和破譯它們的技術(shù). 通用和專用數(shù)據(jù)庫在過去的十年里擴(kuò)增很快,要用日益高深的計(jì)算機(jī)技術(shù)來解釋這些數(shù)據(jù)就要求分子生物學(xué)、化學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)的各個(gè)不同學(xué)科的密切合作. 這些卓有成效的合作已經(jīng)取得重大進(jìn)展的方面包括:序列搜索和比較、基因組圖譜的構(gòu)建、進(jìn)化和系統(tǒng)發(fā)生;有望不久取得進(jìn)展的還有:序列的統(tǒng)計(jì)學(xué)分析、多序列比較、遺傳圖譜、DNA和蛋白質(zhì)分析、新的計(jì)算和數(shù)學(xué)工具等.
當(dāng)前的一些研究新熱點(diǎn)包括:(1) 基因表達(dá)和遺傳網(wǎng)絡(luò):監(jiān)控、分析和模建RNA與蛋白質(zhì)表達(dá)的計(jì)算方法;遺傳調(diào)控網(wǎng)絡(luò)模型和采集與分析大規(guī)?;虮磉_(dá)數(shù)據(jù)的新方法. 要了解有關(guān)這方面的信息可以到http://www.cgl.ucsf.edu/psb/sessions/expression.html.(2) 從分子到圖象的視化工具和交互工具:通過視化和用戶交互行為幫助科學(xué)家權(quán)衡、吸收、導(dǎo)引和關(guān)聯(lián)序列、結(jié)構(gòu)和功能數(shù)據(jù)的新工具和新技術(shù). 這個(gè)主要是軟件的問題可以到http://www.cgl. ucsf.edu/psb/sessions/visualization.html看一看. (3) 大規(guī)?;蚪M序列中的基因結(jié)構(gòu)鑒定:計(jì)算方法尋找新基因的任何一個(gè)方面,其重點(diǎn)是如何全效地發(fā)揮出目前已經(jīng)可以得到的EST/蛋白質(zhì)序列等生物信息,能夠在大規(guī)模的基因組序列中自動(dòng)完成基因鑒定和注釋的統(tǒng)計(jì)學(xué)和數(shù)學(xué)工具. 這方面的詳細(xì)信息還可以到http://www.cgl.ucsf.edu/psb/sessions/gene.html獲取. (4) 藥物設(shè)計(jì)和生物技術(shù)中的分子設(shè)計(jì):最嶄新而時(shí)髦的分子設(shè)計(jì)方法已經(jīng)在小分子和基于結(jié)構(gòu)的藥物設(shè)計(jì)中嶄露頭角,人們正期待著它在蛋白質(zhì)工程中更偉大的輝煌. 詳情可參閱http://www.cgl.ucsf.edu/psb/sessions/modeling.html. (5) 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè):蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的任何方面,但著重于可驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,以及能將實(shí)驗(yàn)結(jié)果泛化到一個(gè)較大的蛋白質(zhì)類群的方法. 有關(guān)問題位于http://www.cgl.ucsf.edu/psb/sessions/psp.html.(6) 蛋白質(zhì)結(jié)構(gòu)和功能關(guān)系、蛋白質(zhì)是如何形成功能分化的:解決“結(jié)構(gòu)功能”問題的計(jì)算策略,但著重于自動(dòng)結(jié)構(gòu)分析、進(jìn)化改變和生物學(xué)內(nèi)涵等這些問題的焦點(diǎn)上. 詳情請(qǐng)看http://www.cgl.ucsf. edu/psb/sessions/function.html. (7) 基于生物分子的計(jì)算:無論是人工還是自然界發(fā)生的計(jì)算過程,其中生物大分子都是作為計(jì)算部件的. 這方面的研究將導(dǎo)致生物計(jì)算機(jī)(biocomputer)最終成為現(xiàn)實(shí). 請(qǐng)到http://www.cgl.ucsf.edu/psb/sessions/compute.html了解詳情. (8) 混沌學(xué)(Complexity)和信息論方法應(yīng)用于生物學(xué):利用信息論和混沌學(xué)的概念與方法來解決生物學(xué)上的問題,包括算法概率(Algorithmic probability)、最小信息長(zhǎng)度(Minimum message length)和最小描述長(zhǎng)度(Minimum description length)等. 兩個(gè)容易想象得到的可能應(yīng)用就是用信息學(xué)的方式和手段探討蛋白質(zhì)折疊和生物信息處理的問題. 不妨看看http://www.cgl.ucsf.edu/ psb/sessions/info.html. (9) 分布式智能型數(shù)據(jù)庫:可以形成更加智能的、互相聯(lián)系的、容易訪問的分子生物學(xué)數(shù)據(jù)庫的新型計(jì)算機(jī)和新算法. 這必將有助于對(duì)生物語言學(xué)的深刻理解. 詳細(xì)的資料正在http://www.cgl.ucsf.edu/psb/sessions/database.html等著您. (10) 在太平洋地區(qū)建成一個(gè)生物信息大構(gòu)架(Bioinformation infrastructure):以太平洋地區(qū)為中心的世界各國(guó)共同協(xié)力合作,創(chuàng)作出一個(gè)共享的生物信息大構(gòu)架,這就保證了能為生物計(jì)算和生物信息學(xué)資源的用戶提供高質(zhì)量的服務(wù). 此中的重點(diǎn)自然是如何向發(fā)展中國(guó)家的那些難以利用生物計(jì)算和生物信息學(xué)服務(wù)的研究組織提供周到的技術(shù)支持. 該方面的資料請(qǐng)參閱http://www.cgl. ucsf.edu/psb/sessions/pacific.html.
我國(guó)學(xué)者也看到了生物信息學(xué)所帶來的契機(jī),專門為生物信息學(xué)在我國(guó)的發(fā)展而組織了香山會(huì)議,為已經(jīng)、正在和即將在世界生物信息學(xué)的前沿陣地沖刺的年輕學(xué)者們發(fā)展抱負(fù)指明了方向,提供了策略. 可以相信,在生物信息學(xué)為揭示生命的本質(zhì)而逐步成熟和完善的過程中,我國(guó)生物信息學(xué)者一定會(huì)取得可喜的成就.
(軍事醫(yī)學(xué)科學(xué)院放射醫(yī)學(xué)研究所,北京100850)歐陽曙光 賀福初.
聯(lián)系客服