# 背景介紹
單細胞相關的研究數據常常以原始數據的形式存儲,由于需要使用復雜的計算流程進行數據處理,生物研究人員很難訪問這種格式的數據。雖然目前已經有一些數據庫收集、管理和整合scRNA-seq數據和生物信息工作流到易于訪問的平臺,例如scRNASeqDB和SCPortalen,但是沒有一個數據庫可提供預計算的生物信息分析和從用戶角度進行高級可視化。而PanglaoDB數據庫,可以通過基于web的接口來探索scRNA seq數據,就顯得十分重要了。
PanglaoDB數據庫和功能概述
PanglaoDB數據庫,這是2019年年初發(fā)布的一個單細胞轉錄組數據庫包含了超過1000個單細胞實驗的預處理和預計算分析,涵蓋了大多數主要的單細胞平臺和分析流程,基于來自各種組織和器官的超過400萬個細胞。它包含了6000多個marker基因,可用于細胞分群注釋的marker數據庫,數據主要源于已經公開發(fā)表的單細胞轉錄組數據。
PanglaoDB數據庫收錄一覽
PanglaoDB可以讓用戶查詢和探索細胞類型、遺傳途徑和調控網絡。它是由瑞典和美國的研究人員共同開發(fā)的,致力于探索人類和小鼠的單細胞轉錄組數據,該數據庫的優(yōu)點是適合零基礎的人使用、探索和挖掘,無論你是做人類研究還是小鼠研究,都能用的到。
PanglaoDB
https://panglaodb.se/index.html
PanglaoDB主頁
一起來看看PanglaoDB能做什么吧。
01
Search
――查看某基因在細胞的表達情況
以輸入CD4基因為例,并根據需要選擇物種(人或小鼠)、是否包括腫瘤組織以及未成熟組織,(本次選擇Mouse、Include non-adult and non-primary samples (embryo, fetal, post-natal development, cell lines)),點擊“Search”,呈現結果如下:
基因在那些細胞亞群中的表達情況
可見,在“T memory cells”亞群中表達的次數最多,這個網站使用表達使用的定義是:如果在一個“cluster”(細胞類型)中基因的中位數>0,就認為這個基因在這個細胞類型中有表達,所以有表達并不一定說明在這個細胞亞群中表達量高。
這個表格詳細說明了CD4基因有表達的”的組織來源和細胞亞群,”Rank”代表這個基因表達量在這個亞群中的排名。點擊圖標中的透視表小圖標,會出現聚類圖。采用的是單細胞測序最常用的展示方法:t-SNE。這個圖是一個交互式的圖片。點擊圖中的細胞群,就會出現相對于該群的介紹,包括特征標志基因,表達的轉錄因子等。
02
Datasets
--想看某個感興趣的組織都有哪些細胞亞群
添加限制條件:物種、測序平臺或表頭順序,得到搜索列表。
點擊“view”可查看數據集的基本信息和該數據集的細胞聚類圖,使用t-SNE/UMAP進行降維可視化,不同顏色代表不同的簇。
--查看某個細胞亞群的標志性marker
點擊“Datasets”,選擇“Cell type markers”,選擇你感興趣的細胞類型之后就可以獲得一個標志基因列表,綠色的行就代表著該亞群最經典的標志基因,大家可以用這些基因對該亞群進行鑒定,具體如下:
數據也可以下載,用戶可在Bulk data download頁面批量下載數據。
03
Tools
用戶還可以使用部署在數據庫上的alona工具進行自有數據的分析。
單細胞測序技術是近幾年來非常熱門的話題。通過外部單細胞數據進行自身數據的驗證也是今后單細胞數據分析的一個重要趨勢。這一領域目前也是如火如荼的開展著針對各類疾病的研究,如果能夠掌握PanglaoDB數據庫,出結果寫論文也會相對順利,今天就介紹到這里啦。