国产成人嫩模一区二区|超级黄色网页|兔子先生tz|麻豆文化传媒网站官网污|在线播放欧美日韩精品|爱豆影视传媒免费下载|蜜桃影像传媒av剧情|麻豆文化传媒APP最新iOS|陈可心倩女幽魂爱豆传媒|91国视频产,国产传媒播放,想看三级片,网红吃瓜黑料爆料网反差

中文

新聞

current location: Home / 新聞 / 正文

PLOS CB|吳華君/鄭小琪/劉林團(tuán)隊(duì)開發(fā)圖譜級單細(xì)胞數(shù)據(jù)高效聚類算法Secuer

Date:2022-12-31 show:

    在過去的十年中,,單細(xì)胞轉(zhuǎn)錄組測序(scRNA-seq)技術(shù)的快速發(fā)展,,使得研究人員可以在單細(xì)胞分辨率上分析整個(gè)轉(zhuǎn)錄組,從而加深了我們對發(fā)育和疾病的理解[1,2],。識別和表征復(fù)雜組織中的細(xì)胞類型,,被廣泛的應(yīng)用于揭示細(xì)胞間的異質(zhì)性以獲得新的生物學(xué)見解[3]。其中無監(jiān)督聚類方法在識別細(xì)胞類型方面發(fā)揮了重要的作用,。近年來,,scRNA-seq實(shí)驗(yàn)的規(guī)模迅速增長,已經(jīng)產(chǎn)生了多套超百萬細(xì)胞級別的數(shù)據(jù)[4-6],,然而現(xiàn)有的單細(xì)胞聚類算法卻難以高效的處理如此規(guī)模的數(shù)據(jù)集,更加難以應(yīng)用在千萬細(xì)胞的圖譜級數(shù)據(jù)集上,。

   2022年12月5日,,北京大學(xué)基礎(chǔ)醫(yī)學(xué)院精準(zhǔn)醫(yī)療多組學(xué)研究中心吳華君課題組,上海交通大學(xué)公共衛(wèi)生學(xué)院單細(xì)胞組學(xué)與疾病研究中心鄭小琪課題組以及上海交通大學(xué)自然科學(xué)研究院劉林課題組合作在PLOS Computational Biology上發(fā)表了題為 “Secuer: ultrafast, scalable and accurate clustering of single-cell RNA-seq data”的學(xué)術(shù)論文,。文中提出了一種基于譜聚類的用于單細(xì)胞測序數(shù)據(jù)的快速聚類算法Secuerhttps://github.com/nanawei11/Secuer),,能夠在3到4分鐘內(nèi)完成對超大型數(shù)據(jù)集(1千萬個(gè)細(xì)胞)的無監(jiān)督聚類任務(wù)。

       

   Secuer(a scalable and efficient spectral clustering algorithm)基于譜聚類算法(圖1),,從單細(xì)胞數(shù)據(jù)中識別錨點(diǎn)(anchors),,然后借助近似最近鄰算法(MAKNN)構(gòu)造一個(gè)由細(xì)胞和錨點(diǎn)組成的加權(quán)二部圖,其權(quán)重采用局部加權(quán)的高斯核距離度量,。此外,,作者引入了兩種自動(dòng)確定聚類個(gè)數(shù)的策略:1)基于錨點(diǎn)的圖分割(如Louvain)算法;2)基于加權(quán)二部圖拉普拉斯(Laplacian)矩陣的特征值的分布算法,。此外,,得益于算法運(yùn)行時(shí)間上的優(yōu)勢,作者進(jìn)一步引入了一個(gè)集成聚類的方法Secuer-consensus,,通過變換不同的參數(shù)使用Secuer取得多個(gè)聚類結(jié)果,,進(jìn)而構(gòu)造一個(gè)集成二部圖獲得一致性聚類結(jié)果(圖2),。

       

圖1 Secuer流程示意圖

圖2 Secuer-consensus流程示意圖

   為了證明Secuer的性能,作者首先基于小鼠大腦數(shù)據(jù)集模擬了不同數(shù)量(1萬到4千萬)的單細(xì)胞數(shù)據(jù),。與其他方法相比,,Secuer極大的降低了聚類時(shí)間,并取得了較高的準(zhǔn)確度,。對于超大型數(shù)據(jù)集,,Secuer比k-means快5倍,比Louvain/Leiden快12倍,,使用的內(nèi)存僅是Louvain的10% (圖3),。此外,當(dāng)樣本量大于500萬時(shí),,Secuer基于錨點(diǎn)空間推斷的聚類個(gè)數(shù)仍然是準(zhǔn)確的,。隨后,作者收集了15套涉及不同測序技術(shù)的具有注釋的單細(xì)胞數(shù)據(jù)集,,其中細(xì)胞個(gè)數(shù)從49到140萬,。Secuer相比其他方法產(chǎn)生了相當(dāng)或更高的準(zhǔn)確度,且平均能節(jié)省90%的運(yùn)行時(shí)間,。

 

       

圖3 模擬數(shù)據(jù)集上不同方法的結(jié)果展示

   作者進(jìn)一步評估了Secuer-consensus的準(zhǔn)確度,,與流行的集成聚類算法SC3相比,Secure-consensus在14個(gè)基準(zhǔn)數(shù)據(jù)集上獲得了更好的聚類精度,,且速度比SC3快100倍,,并且可以在SC3不能使用的大型數(shù)據(jù)集上工作。例如,,Secuer-consensus可在2分鐘內(nèi)實(shí)現(xiàn)大型數(shù)據(jù)集(~140萬個(gè)細(xì)胞)的聚類,。與最近發(fā)表的另一個(gè)針對大規(guī)模scRNA-seq數(shù)據(jù)的集成聚類方法Specter相比,Secure-consensus在大型數(shù)據(jù)集上具有更高的準(zhǔn)確性同時(shí)耗時(shí)更短,。

   總體來說,,Secuer在準(zhǔn)確性、計(jì)算成本和可擴(kuò)展性之間取得了很好的平衡,,是聚類圖譜級scRNA-seq數(shù)據(jù)的高效算法,,也可以應(yīng)用于在線scRNA-seq計(jì)算平臺對海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。

   上海師范大學(xué)數(shù)理學(xué)院博士研究生魏娜娜為該論文的第一作者,。上海交通大學(xué)數(shù)學(xué)科學(xué)學(xué)院劉林副教授,、上海交通大學(xué)公共衛(wèi)生學(xué)院鄭小琪教授和北京大學(xué)基礎(chǔ)醫(yī)學(xué)院/北京大學(xué)腫瘤醫(yī)院吳華君研究員為該論文的共同通訊作者。

 

原文鏈接:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010753

軟件鏈接:https://github.com/nanawei11/Secuer

 

參考文獻(xiàn)

1. Kolodziejczyk AA, Kim JK, Svensson V, Marioni JC, Teichmann SA. The technology and biology of single-cell RNA sequencing. Mol Cell. 2015;58(4):610-20.

2. Ziegenhain C, Vieth B, Parekh S, Reinius B, Guillaumet-Adkins A, Smets M, et al. Comparative analysis of single-cell RNA sequencing methods. Mol cell. 2017;65(4):631-43. e4.

3. Wang D, Bodovitz S. Single cell analysis: the new frontier in ‘omics’. Trends Biotechnol. 2010;28(6):281-90.

4. Brbi? M, Zitnik M, Wang S, Pisco AO, Altman RB, Darmanis S, et al. MARS: discovering novel cell types across heterogeneous single-cell experiments. Nat Methods. 2020;17(12):1200-6.

5. Ren X, Wen W, Fan X, Hou W, Su B, Cai P, et al. COVID-19 immune features revealed by a large-scale single-cell transcriptome atlas. Cell. 2021;184(7):1895-913. e19.

6. Duò A, Robinson MD, Soneson C. A systematic performance evaluation of clustering methods for single-cell RNA-seq data. F1000Res. 2018;7.