DISCO:深度整合人類單細(xì)胞組學(xué)數(shù)據(jù)的數(shù)據(jù)庫(kù)

欄目:最新研究動(dòng)態(tài) 發(fā)布時(shí)間:2022-03-14
近日,新加坡研究團(tuán)隊(duì)構(gòu)建了一個(gè)新的單細(xì)胞測(cè)序數(shù)據(jù)庫(kù)——DISCO,該數(shù)據(jù)庫(kù)相關(guān)文章刊登在Nucleic Acids Research期刊......


單細(xì)胞 RNA 測(cè)序已成為剖析細(xì)胞異質(zhì)性以發(fā)現(xiàn)稀有細(xì)胞類型和研究細(xì)胞水平基因調(diào)控的有力工具。在過(guò)去的十年中,單細(xì)胞轉(zhuǎn)錄組研究呈指數(shù)級(jí)增長(zhǎng),涵蓋了廣泛的組織類型和疾病。技術(shù)的進(jìn)步不僅降低了測(cè)序成本,而且增加了每個(gè)實(shí)驗(yàn)測(cè)序的細(xì)胞數(shù)量,據(jù)報(bào)道覆蓋了超過(guò)一百萬(wàn)個(gè)細(xì)胞。單細(xì)胞數(shù)據(jù)的日益普及為數(shù)據(jù)集成提供了機(jī)會(huì),以創(chuàng)建全面的細(xì)胞圖并增強(qiáng)下游分析的能力。

單細(xì)胞測(cè)序的飛速發(fā)展也給單細(xì)胞數(shù)據(jù)的管理和整合帶來(lái)了挑戰(zhàn)。目前,公共數(shù)據(jù)庫(kù)中有超過(guò)400個(gè)單細(xì)胞 RNA-seq 數(shù)據(jù)集。當(dāng)前的單細(xì)胞數(shù)據(jù)庫(kù)具有三個(gè)主要缺點(diǎn)。首先,這些數(shù)據(jù)庫(kù)中的大多數(shù)僅提供其各自研究中的處理數(shù)據(jù);未進(jìn)行數(shù)據(jù)集成或未提供批量校正值。具有針對(duì)特定組織或疾病的集成圖集作為共識(shí)參考圖和增強(qiáng)下游分析非常有用。其次,相關(guān)數(shù)據(jù)不協(xié)調(diào),具有非標(biāo)準(zhǔn)格式和命名約定。特別是,細(xì)胞類型標(biāo)簽不遵循任何標(biāo)準(zhǔn)化的細(xì)胞類型本體。第三,它們提供有限的分析功能和可視化能力。例如,它們都不允許用戶將自己的數(shù)據(jù)映射到數(shù)據(jù)上。

近日,新加坡研究團(tuán)隊(duì)構(gòu)建了一個(gè)新的單細(xì)胞測(cè)序數(shù)據(jù)庫(kù)——DISCO,該數(shù)據(jù)庫(kù)相關(guān)文章刊登在Nucleic Acids Research期刊(IF=16.971),題名為DISCO: a database of Deeply Integrated human Single-Cell Omics data。DISCO網(wǎng)址為https://www.immunesinglecell.org/。

DISCO是一個(gè)深度集成的單細(xì)胞組學(xué)數(shù)據(jù)數(shù)據(jù)庫(kù)。DISCO 351個(gè)項(xiàng)目中整合了來(lái)自4593個(gè)樣本的超過(guò)1800萬(wàn)個(gè)細(xì)胞,涵蓋107個(gè)組織/細(xì)胞系/類器官、158種疾病和20個(gè)平臺(tái)。DISCO上托管的所有數(shù)據(jù)都是使用標(biāo)準(zhǔn)化管道從原始 fastq文件處理的。利用大量的公共細(xì)胞類型注釋,開(kāi)發(fā)了CELLiD并將其應(yīng)用于以自動(dòng)和標(biāo)準(zhǔn)化的方式注釋細(xì)胞類型。為了整合單細(xì)胞數(shù)據(jù)并創(chuàng)建共識(shí)參考圖,還開(kāi)發(fā)了FastIntegration,它可以整合超過(guò)400萬(wàn)個(gè)細(xì)胞。目前,DISCO23種組織、3種疾病(COVID-19、乳腺癌和結(jié)直腸癌)和B/漿細(xì)胞提供了1個(gè)全圖譜27個(gè)子圖譜。DISCO配備了三個(gè)在線工具,用于在線數(shù)據(jù)集成的FastIntegration、用于在線細(xì)胞類型識(shí)別的CELLiD和用于在線細(xì)胞投影的CellMapper。這些工具使用戶能夠執(zhí)行自定義數(shù)據(jù)集成,并將他們自己的數(shù)據(jù)上傳到細(xì)胞類型注釋和映射到可用的圖集上。集成的地圖集和用于構(gòu)建地圖集的所有樣本數(shù)據(jù)也可供下載。總之, DISCO 是探索不同健康和患病人體組織中的細(xì)胞類型和基因表達(dá)的寶貴數(shù)據(jù)資源,有助于加速發(fā)現(xiàn)新的細(xì)胞類型及其相關(guān)功能。