国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
一文讀懂泛基因組測序(附贈生信賺錢小方法)
分成3部分:
首先認(rèn)識泛基因組測序
然后看看植物領(lǐng)域的泛基因組研究現(xiàn)狀
最后解讀一個(gè)大豆的泛基因組測序項(xiàng)目
認(rèn)識泛基因組測序
什么是泛基因組?
2005年,Tettelin等人提出了微生物泛基因組概念(pangenome,pan源自希臘語'παν’,全部的意思),泛基因組即某一物種全部基因的總稱。
2009 年,Li等人首次采用新全基因組組裝方法對多個(gè)人類個(gè)體基因組進(jìn)行拼接,發(fā)現(xiàn)了個(gè)體獨(dú)有的DNA序列和功能基因,并首次提出了“人類泛基因組”的概念,即人類群體基因序列的總和。
2013 年泛基因組測序應(yīng)用于動植物研究領(lǐng)域。
此處輸入圖片的描述如圖,泛基因組進(jìn)而可以分為,核心基因組(core genome)和可變基因組 (variable genome)。
核心基因指的是,在所有動植物品系或者菌株中都存在的基。
可變基因組是指,在1個(gè)以及1個(gè)以上的動植物品系或者菌株中存在的基因。
如果某個(gè)基因,僅存在某一個(gè)動植物品系或者菌株中,該基因還可以細(xì)分為品系或者菌株特有基因。一般來說,核心基因組控制著生命體基本生成代謝的功能。
另外,結(jié)構(gòu)變異中的存在/缺失變化(presnece/absence variation)是泛基因組的重點(diǎn)研究對象,因?yàn)榭勺兓蚪M可能就是使個(gè)體產(chǎn)生不同性狀(抗病性,抗寒性等)的原因。
為什么我們要開展泛基因組測序?
在漫長的進(jìn)化過程中,由于地域因素,環(huán)境因素等的影響,每個(gè)個(gè)體都形成了極其特別的遺傳性狀,單一個(gè)體的基因組已經(jīng)不能涵蓋這個(gè)物種的所有遺傳信息,另外一個(gè)原因,由于基因測序變得更加廉價(jià),為近年來火爆的泛基因組的研究提供了可能性。
泛基因組是近年來比較流行的一種研究方向,通過對不同品種基因組進(jìn)行測序,組裝,然后將組裝好的基因序列進(jìn)行整合注釋,進(jìn)而獲取這個(gè)物種全部的遺傳信息并且對每一個(gè)個(gè)體間遺傳變異信息進(jìn)行解析。
技術(shù)路線
此處輸入圖片的描述組裝技術(shù)對比
目前比較流行的研究方法與三種:K-mer based assembly,De novo assembly和 iterative assembly)
此處輸入圖片的描述下面主要給大家講解講:De novo assembly method 和 iterative assembly。
De novo assembly method
此處輸入圖片的描述分別對多個(gè)個(gè)體進(jìn)行,De novo assembly,然后將所得的每個(gè)個(gè)體的assembly與reference基因組mapping,找出不同unmapped的區(qū)域,再進(jìn)行進(jìn)一步的assembly,然后注釋。此方法需要更多的電腦資源,因?yàn)樾枰獙γ恳粋€(gè)個(gè)體進(jìn)行de novo assembly,然后還需要全基因組比對。
Iterative (迭代)assembly
此處輸入圖片的描述相當(dāng)于一種迭代的方式,將每一個(gè)種系map to reference,然后找出unmapped的部分進(jìn)行assembly,得到新的基因序列進(jìn)而擴(kuò)展原有的reference。一步一步這樣迭代,直到所有的種系都處理完。最后建立起的泛基因組,再進(jìn)行注釋。這種方法,相對需要更少電腦資源,但是可能會產(chǎn)生更多的小片段。
應(yīng)用
此處輸入圖片的描述泛基因組測序是運(yùn)用高通量測序及生物信息分析手段,針對不同亞種/個(gè)體材料進(jìn)行測序及泛組裝,構(gòu)建泛基因組圖譜,豐富該物種的遺傳信息。
泛基因組測序不僅可以獲得多個(gè)基因組,完善該物種的基因集,還可以獲得種群甚至個(gè)體特有的DNA序列和功能基因信息,為系統(tǒng)進(jìn)化分析及功能生物學(xué)研究奠定基礎(chǔ)。
此處輸入圖片的描述
選擇不同亞種材料進(jìn)行泛基因組測序,可以研究物種的起源及演化等重要生物學(xué)問題;
選擇野生種和栽培種等不同特性的種質(zhì)資源進(jìn)行泛基因組測序,可以發(fā)掘重要性狀相關(guān)的基因資源,為科學(xué)育種提供指導(dǎo);
選擇不同生態(tài)地理類型的種質(zhì)資源進(jìn)行泛基因組測序,可以開展物種的適應(yīng)性進(jìn)化,外來物種入侵性等熱門科學(xué)問題的研究,為分子生態(tài)學(xué)等學(xué)科提供新的研究手段。
還有小編認(rèn)為,泛基因組還可以應(yīng)用到尋找snps。
此處輸入圖片的描述
對比單一的reference基因,可以有效提高可發(fā)現(xiàn)的snps數(shù)量
用泛基因組去calling snps 意味著你可以節(jié)省很多電腦資源和分析時(shí)間。(正常snap calling需要比對到不同的個(gè)體上,但如果通過泛基因組去calling snps,就可以一步到位,因?yàn)檫@個(gè)pangenome 相當(dāng)于所有個(gè)體的集合。另外,這也意味著,你得出的snps 組不需要整合(傳統(tǒng)的snp calling需要整合,因?yàn)樾枰葘Φ讲煌瑐€(gè)體上)
還有一個(gè)好處就是,因?yàn)閜angenome 包括了一步presence/absence variations 的分析,我們可以區(qū)別出這種snp是屬于核心基因的,還是屬于可變基因的。然后,再結(jié)合你表現(xiàn)型的數(shù)據(jù),這對利用snp提高農(nóng)作物產(chǎn)量是很有意義的。
探索植物泛基因組的研究趨勢
泛基因組近年來的研究
物種泛基因組建立方法來源期刊
Cultivated and wild riceDe novo assemblyZhao, Feng et al. 2018Nature genetics
Brachypodim distachyonDe novo assemblyGordon, Contreras-Moreira et al. 2017Nature communication
Hexaploid bread wheatItrearitve mapping and assemblyMontenegro, Golicz et al. 2017PBJ
Brassica oleraceaItrearitve mapping and assemblyGolicz, Bayer et al. 2016Nature Communication
Brassica napusItrearitve mapping and assemblyHurgobin, Golicz et al. 2017PBJ
Wild type soybean (Glycine soja)De novo assemblyLi, Zhou et al. 2014Nature Biotechonology
MaizeNovel Transcript AssemblyHirsch, Foerster et al. 2014The plant cwell
心得分享
由于一般泛基因組的數(shù)據(jù)分析都沒有表觀的數(shù)據(jù),往往找到了一些novel的基因之后,就缺少一些實(shí)質(zhì)表觀的驗(yàn)證,所以火爆程度相對CRISPR,single cell 其他熱點(diǎn)來說還是比較溫火。
但總體來說,泛基因組都基本可以發(fā)到至少6分以上甚至像最近接近40分的期刊。在通讀了最近兩篇Nature的文章,我根據(jù)個(gè)人經(jīng)驗(yàn),總結(jié)這兩篇文章的一些亮點(diǎn) (Gordon, Contreras-Moreira et al. 2017, Zhao, Feng et al. 2018)。
1.驗(yàn)證! 再說一次驗(yàn)證!
我發(fā)現(xiàn)這兩篇nature文章都有一個(gè)共同的特點(diǎn),處處都在驗(yàn)證。從一開始的de novo assembly結(jié)果,作者就將自己使用的assembly泛基因組的方法,用于assembly ref raw data。通過對比,自己assembly出來的 ref 和 已經(jīng)發(fā)表的 ref genome 的assembly,rice的那篇文章更加有用到BAC對其中一個(gè)有代表性的line進(jìn)行驗(yàn)證,從而證明所用的assembly的結(jié)果是精準(zhǔn)的。然后到annotation,通過對比自己做出來的gene annotation 和 已經(jīng)發(fā)表的gene annotation。再加上比對不同lines之前annotation的結(jié)果,驗(yàn)證所用annotation方法的準(zhǔn)確率。然后同樣到PAV 和 SNP calling的結(jié)果,都是環(huán)環(huán)相接,結(jié)果和認(rèn)證都不漏。
2.尋找獨(dú)特的切入點(diǎn)
這點(diǎn)我相信是每一篇文章最重要的一部分。rice 那篇泛基因組,通過獨(dú)特的視角,對rice 的domestication 和 introgression 進(jìn)行研究。然后對某些特別的SNPs進(jìn)行深入的挖掘,這都是為什么這篇文章可以脫穎而出的原因。然后就是Brachypodim distachyon這文章。其亮點(diǎn)就是它不單對non-TE genes進(jìn)行了研究,也從TE 的角度解析了為啥Brachypodim distachyon 會有獨(dú)特的PAV pattern。我覺得這點(diǎn)可以值得所有同行學(xué)習(xí)。repeat sequences 中TE等片段確實(shí)值得再深入發(fā)掘。然后這篇文章也試圖將core gene 和variable gene 進(jìn)行 更加深層的分組。確實(shí)可以提供更加深層的視角研究variable gene,但個(gè)人感覺也有點(diǎn)將問題復(fù)雜化了一些。
core gene clusters contained all lines, including the softcore gene clusters contained 53–55 lines (95–98%); shell gene clusters contained 3–52 lines (5–94%); and cloud gene clusters contained 1 or 2 lines (2–5%)
總結(jié)
有效的對每一個(gè)小步驟反復(fù)認(rèn)證是一篇好的泛基因組文章的前提,要不然其他人會質(zhì)問你的結(jié)果的可信度,究竟你的結(jié)果是真的還是因?yàn)槭褂霉ぞ叩漠愅斐傻?。另外,在泛基因組pipeline比較成熟的情況下,尋找有意義感興趣的生物學(xué)問題,對你的結(jié)果進(jìn)行解析也是發(fā)好文章成功的關(guān)鍵。
本次分享就到這,由于文章比較多,這次是對這些文章概述的一個(gè)總結(jié)。后面我將會重點(diǎn)比較不同文章中所使用的研究方法,然后再比較一下不同作物PAV和SNPS之間的異同
回顧14年大豆泛基因組圖譜構(gòu)建
Background
大豆是世界食用油和植物蛋白質(zhì)的重要來源,也是生物燃料潛在的原材料,在世界農(nóng)業(yè)經(jīng)濟(jì)貿(mào)易中占有重要地位。近年來,我國乃至世界大豆育種難以取得突破性的進(jìn)展、單產(chǎn)停滯不前,主要原因是目前大豆品種的遺傳基礎(chǔ)狹窄,匱乏的基因源成為制約栽培大豆育種研究的關(guān)鍵。野生大豆具有較強(qiáng)的抗逆性和繁殖能力,是栽培大豆重要的基因資源。相比于重測序研究,多個(gè)個(gè)體的泛基因組測序可以更加全面的檢測物種內(nèi)部的遺傳變異,且可獲得各樣本的共有和特有基因集,結(jié)合各樣本的表型差異可為進(jìn)一步挖掘重要的農(nóng)藝性狀基因提供基礎(chǔ),對改良大豆品質(zhì),提高對病蟲害的抗性及對不良環(huán)境與氣候變化的適應(yīng)性具有重要意義。
Results
都是比較常規(guī)的操作,可以直接模仿。
基因組大?。?株野生大豆基因組最小為889.33Mb,最大為1118.34Mb,分別為栽培大豆基因組的93.6%和117.7%,這種區(qū)別一定程度上為重復(fù)序列含量不同導(dǎo)致;
基因組組裝和注釋:7株野生大豆基因組組裝結(jié)果contig N50約7.7~26.6 kb,scaffold N50約16.3~62.7kb,平均每個(gè)基因組注釋出55,570個(gè)基因,其中85~90%的基因?yàn)槿L基因。
泛基因組構(gòu)建:對7個(gè)從頭組裝的野生大豆基因組進(jìn)行比較,發(fā)現(xiàn)7個(gè)野生大豆中共有59080個(gè)基因家族(pan-genome);48.6%的基因家族為7個(gè)野生大豆共享(core-genome),剩余51.4%的基因家族則僅存在于個(gè)別樣本中。
變異檢測及注釋:以栽培大豆基因組為參考,通過全基因組比對的方法,7株野生大豆分別鑒定出SNP 3.6~{4.7}{M},其中{0.12}~{0.15}{M}位于編碼區(qū);{I}{n}{D}{e}{l}{0.50}-{0.77}{M},{2989}~{4181}個(gè)導(dǎo)致了移碼;大量的變異位點(diǎn)({44}~53%)為重測序手段未能識別出的新位點(diǎn)。
進(jìn)化分析:分歧時(shí)間分析表明野生大豆與栽培大豆的祖先約在80萬年前即發(fā)生了分化;對栽培大豆、野生大豆分別進(jìn)行正選擇分析,發(fā)現(xiàn)栽培大豆受選擇的基因多與抗旱有關(guān),可能由人工選擇導(dǎo)致;而野生大豆中受選擇基因則非常多樣化,每個(gè)不同地理區(qū)域來源的野生大豆都有不同類型的基因受到正選擇。
農(nóng)藝性狀基因定位:鑒定出大量與抗逆、抗病、花期、產(chǎn)油量和高度等重要農(nóng)藝性狀相關(guān)基因和變異,例如14號染色體上一段8kb的片段與野生大豆抗逆和植物發(fā)育相關(guān),野生大豆和栽培大豆開花時(shí)間的差異與開花時(shí)間調(diào)控基因SNP和InDel變異有關(guān);
Methods
重點(diǎn)需要關(guān)注的地方,能否進(jìn)行類似study的關(guān)鍵
實(shí)驗(yàn)材料:
7株亞洲地區(qū)代表性野生大豆品種。對每株大豆構(gòu)建180bp、500bp和2kb插入片段文庫,采用Iluumina Hiseq2000平臺PE100測序,平均測序深度為112X.。
De novo assembly
首先使用 Meryl 和applied GCE 生成一系列的長度為 17 kmer的片段用以估算每個(gè)de novo assembly的大小。ALLPATHS-LG 和SOAPdenovo, 用于修正 calling errors進(jìn)一步增長對應(yīng)的reads。GapCloser 用于gap filling 進(jìn)而進(jìn)行assembly。生成的contings中,用BLAST比對到相應(yīng)的數(shù)據(jù)庫,如果有哪個(gè)contigs中的hints顯示identity ≥95% and e-value ≤1e-5 比對到細(xì)菌的genome上,對其進(jìn)行過濾。
Genomic alignment and short read mapping
將每一個(gè)de novol assembly 比對到ref上,使用 ( NUCmer maxmatch -c 90 -l 40)。比對結(jié)果進(jìn)一步的帥選,使用delta-filter。每一個(gè)line 的short reads 比對到ref上,使用BWA,然后去重復(fù)片段,使用SAMtools。
Gene prediction and annotation 最重要的一步
使用Augustus 進(jìn)行putative gene coding regions的掃描。Glycine max, Lotus japonicas, Medicago truncatula and Arabidopsis thaliana的蛋白質(zhì)序列比對到de novo assemblies上使用BLASTN (1e-5),然后進(jìn)一步使用GENEwise進(jìn)行驗(yàn)證。RNA-seq的evidences 使用經(jīng)典的TOPHat + Cufflinks進(jìn)行處理。最后使用EVM對所有的evidences 進(jìn)行整合。GeneWise和BLASTN (1e-5)對所生成的gene model再驗(yàn)證。Gene models中少于50%的比對率的片段進(jìn)行過濾。TE-related 的片段用HMMPfam進(jìn)行過濾。生成的置信contigs用BLAST hits in the Arabidopsis thaliana proteome進(jìn)行功能驗(yàn)證,還有一系列的搜索公眾數(shù)據(jù)庫Pfam, PRINTS, PROSITE, ProDom and SMART with InterProScan。InterPro 用來研究相應(yīng)的GO enrichment,還有相應(yīng)KEGG的研究。
Gene clustering
使用OrthoMCL 對core genes 和 dispensable genes進(jìn)行歸類。
SNP and indel identification
homozygous的SNP使用MUMer去找。heterozyous 的使用SMAtools。EMBOSS 用來處理比對中含有多個(gè)發(fā)現(xiàn)的多個(gè)indels。SNPs的功能驗(yàn)證使用ANNOVAR package。FUNC package用來做SNPs的功能驗(yàn)證。所發(fā)現(xiàn)的snps,從中隨機(jī)選取一些,在wet lab那邊再次通過實(shí)驗(yàn)驗(yàn)證。
CNV detection
每個(gè)基因的CDS被提取,計(jì)算其對應(yīng)的mean sequencing depth (d0) and s.d. (s0) 。任何基因要高于1.8倍的d0 還有低于0.2的d0
都可以歸類為CNV。
PAV detection
Based on the short reads alignment results, blocks with no mapped reads by G. soja were defined as GmaxW82-specific sequences.Genes that overlapped these blocks with 50% length were considered as GmaxW82-specific sequences.
Phylogentic analysis
Protein sequences for genes were compared by using all-by-all BLASTP (1e-5), and then OrthoMCL was used to cluster genes into orthologous gene families 670 orthologous gene families, with exactly one copy from each genome, were classified and defined as conserved single-copy gene families. Protein sequences from the 670 gene families were aligned by MUSCLE。 Phylogenetic trees were built by the Neighbor-joining method incorporated in MEGA package。 The divergence time between legume genomes were estimated using the 'mcmctree' program incorporated in the PAML。
大概的內(nèi)容就這樣,看了一下最近發(fā)的那篇rice的文章,有好幾個(gè)方法都很類似,有異曲同工之妙,也證明了,經(jīng)典的方法流程也不會過時(shí),盡管不同的工具不斷在升級。我自己估計(jì)在整理好數(shù)據(jù)后,自己操作起來還需要一大段時(shí)間,好好研究每一個(gè)tools是怎樣使用的。
參考文獻(xiàn):
Golicz, Agnieszka A., Jacqueline Batley, and David Edwards. "Towards plant pangenomics." Plant biotechnology journal 14.4 (2016): 1099-1105.
Golicz, Agnieszka A., et al. "The pangenome of an agronomically important crop plant Brassica oleracea." Nature communications 7 (2016): 13390.
Hurgobin, Bhavna, and David Edwards. "SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?." Biology 6.1 (2017): 21.
代表文獻(xiàn)
Li, Ying-hui, et al. "De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits." Nature Biotechnology32.10 (2014): 1045-1052.
Maretty, Lasse, et al. "Sequencing and de novo assembly of 150 genomes from Denmark as a population reference." Nature (2017).
編輯:jimmy
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
轉(zhuǎn)錄組分析結(jié)果閱讀指南
2017/09/29 植物最新文章動態(tài):檀香基因組,甘蔗全長轉(zhuǎn)錄組發(fā)布,植物中的m5c測序
【轉(zhuǎn)】NCBI Entrez Gene(1): 查找基因
【資源分享】UCSC:基因組相關(guān)研究的一個(gè)有力工具
eQTL | Expression quantitative trait loci | 表達(dá)數(shù)量性狀基因座 | QTL | 數(shù)量性狀位點(diǎn)
SNP從無到有?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服