首先我問(wèn)了一下chatGPT關(guān)于kegg數(shù)據(jù)庫(kù)的hsa系統(tǒng)介紹:
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是一個(gè)集成了基因組、代謝組和信號(hào)傳導(dǎo)通路等多種生物信息學(xué)數(shù)據(jù)和分析工具的綜合性數(shù)據(jù)庫(kù)。KEGG數(shù)據(jù)庫(kù)的hsa系統(tǒng)是其中的一個(gè)分支,專(zhuān)注于人類(lèi)基因組和蛋白質(zhì)組的信息整合、注釋和分析。下面是hsa系統(tǒng)的一些主要特點(diǎn):
總之,KEGG數(shù)據(jù)庫(kù)的hsa系統(tǒng)為研究人類(lèi)基因組和蛋白質(zhì)組提供了一個(gè)非常有價(jià)值的資源和工具,廣泛應(yīng)用于生物醫(yī)學(xué)研究、藥物研發(fā)等領(lǐng)域。
目前(2023-04-03)在 https://rest.kegg.jp/list/pathway/hsa 可以看到全部的人類(lèi)的通路,比如:
hsa01100 Metabolic pathways - Homo sapiens (human)
hsa01200 Carbon metabolism - Homo sapiens (human)
hsa01210 2-Oxocarboxylic acid metabolism - Homo sapiens (human)
hsa01212 Fatty acid metabolism - Homo sapiens (human)
目前(2023-04-03)在 https://rest.kegg.jp/link/hsa/pathway 可以看到全部的人類(lèi)的通路以及它對(duì)應(yīng)的基因的hsa系列id,比如:
path:hsa00010 hsa:10327
path:hsa00010 hsa:124
path:hsa00010 hsa:125
path:hsa00010 hsa:126
path:hsa00010 hsa:127
這樣就有一點(diǎn)尷尬,因?yàn)槿祟?lèi)的通路我們可以容忍它是kegg數(shù)據(jù)庫(kù)的id,但是人類(lèi)的基因我們不需要 hsa:127這樣的東西,也很難理解,關(guān)于這些id的定義當(dāng)然了看kegg的官網(wǎng)即可;
比如:https://www.genome.jp/dbget-bin/www_bget?hsa:230 就可以看到這個(gè)基因的很詳細(xì)的信息:
ALDOC, ALDC
(RefSeq) aldolase, fructose-bisphosphate C
NCBI-GeneID: 230
NCBI-ProteinID: NP_005156
OMIM: 103870
HGNC: 418
Ensembl: ENSG00000109107
Pharos: P09972(Tbio)
UniProt: P09972 A0A024QZ64
那么就需要一個(gè)轉(zhuǎn)換,如何把kegg數(shù)據(jù)庫(kù)的hsa系列id轉(zhuǎn)為基因名字呢,我繼續(xù)詢(xún)問(wèn)chatGPT,這次它給了我一個(gè)略有瑕疵的代碼:
如果有r基礎(chǔ),很容易修改成功:
library(KEGGREST)
# example list of hsa IDs
hsa_ids <- c("hsa:10458", "hsa:23545", "hsa:10157")
# retrieve information about the genes
gene_info <- keggGet( hsa_ids )
# extract the gene names from the information
gene_names <- sapply(gene_info, function(x) x$NAME)
# print the gene names
print(gene_names)
所以,接下來(lái)只需要去 https://rest.kegg.jp/link/hsa/pathway 拿到人類(lèi)的全部的基因的hsa格式的id,然后使用 keggGet 函數(shù)即可批量轉(zhuǎn)換啦。
聯(lián)系客服