近日,上海交通大學(xué)公共衛(wèi)生學(xué)院、上海交通大學(xué)醫(yī)學(xué)院?jiǎn)渭?xì)胞組學(xué)與疾病研究中心鄭小琪課題組在基因組學(xué)權(quán)威雜志Genome Research上發(fā)表題為STCC enhances spatial domain detection through consensus clustering of spatial transcriptomics data的研究論文。該研究創(chuàng)新性地開發(fā)了針對(duì)空間轉(zhuǎn)錄組數(shù)據(jù)設(shè)計(jì)的集成聚類框架STCC(Spatial Transcriptomics Consensus Clustering),顯著提升了空間域檢測(cè)的性能。

隨著空間轉(zhuǎn)錄組技術(shù)(Spatially Resolved Transcriptomics, SRT)的快速發(fā)展,研究人員已能夠在保留細(xì)胞空間位置的同時(shí)獲取其基因表達(dá)譜信息,為揭示組織發(fā)育和疾病機(jī)制提供了革命性研究工具。然而,當(dāng)前空間轉(zhuǎn)錄組研究面臨關(guān)鍵瓶頸問題:作為基礎(chǔ)分析的關(guān)鍵步驟,空間域檢測(cè)(spatial domain detection)算法的性能在不同數(shù)據(jù)集和測(cè)序平臺(tái)間存在顯著差異,由此帶來的不穩(wěn)定性嚴(yán)重影響了空間異質(zhì)性分析、細(xì)胞互作研究等后續(xù)分析步驟。傳統(tǒng)單細(xì)胞RNA測(cè)序領(lǐng)域的集成聚類方法(如SC3)雖在批量轉(zhuǎn)錄組和單細(xì)胞數(shù)據(jù)中表現(xiàn)優(yōu)異,但其在空間轉(zhuǎn)錄組數(shù)據(jù)中的適用性尚未得到驗(yàn)證。

圖1 STCC模型架構(gòu)
本項(xiàng)研究提出了一種專為空間轉(zhuǎn)錄組(SRT)數(shù)據(jù)聚類設(shè)計(jì)的集成框架——STCC(Spatial Transcriptome Consensus Clustering)。STCC通過構(gòu)建超圖矩陣或共識(shí)矩陣,有效整合來自多種基線聚類算法的結(jié)果,提升空間域識(shí)別的魯棒性與準(zhǔn)確性。該框架共實(shí)現(xiàn)了四種集成策略,包括兩種樸素策略(獨(dú)熱編碼集成和平均集成)和兩種高級(jí)策略(超圖集成和加權(quán)非負(fù)矩陣分解集成),后者引入了超圖劃分、非負(fù)矩陣分解和二次規(guī)劃等算法以獲取更穩(wěn)健的集成標(biāo)簽(圖1)。為全面驗(yàn)證STCC的性能,作者在涵蓋不同測(cè)序平臺(tái)、物種及組織類型的七個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果表明,STCC在多種聚類評(píng)價(jià)指標(biāo)下均展現(xiàn)出卓越的整合能力和廣泛的適應(yīng)性。

圖2 STCC集成策略在單一聚類算法上的表現(xiàn)
研究人員首先探討了STCC在僅使用單一基線聚類算法作為輸入時(shí)的表現(xiàn)。通過將四種集成策略應(yīng)用于七種主流空間域檢測(cè)算法(如SEDR、SpatialPCA、BayesSpace等)在真實(shí)鼠腦數(shù)據(jù)上的聚類結(jié)果,發(fā)現(xiàn)所有STCC策略在大多數(shù)評(píng)估指標(biāo)中均優(yōu)于原始基線方法。尤其在“SEDR only”與“stLearn only”的情境下,STCC展現(xiàn)出更低的性能波動(dòng),顯著增強(qiáng)了聚類結(jié)果的穩(wěn)定性。此外,在鼠腦數(shù)據(jù)上,STCC策略成功糾正了基線算法錯(cuò)誤識(shí)別的皮質(zhì)區(qū)域結(jié)構(gòu),其中基于加權(quán)非負(fù)矩陣分解的集成策略更是精準(zhǔn)重構(gòu)了鼠腦的Cortex_5區(qū)域,與人工標(biāo)注高度一致(圖2)。

圖3 STCC集成策略準(zhǔn)確性和穩(wěn)定性的綜合評(píng)估
STCC集成框架在整合多個(gè)基線聚類算法時(shí)表現(xiàn)出顯著優(yōu)勢(shì)。通過對(duì)四個(gè)真實(shí)空間轉(zhuǎn)錄組數(shù)據(jù)集的系統(tǒng)評(píng)估,研究人員發(fā)現(xiàn):基線算法本身的質(zhì)量顯著影響共識(shí)聚類的準(zhǔn)確性,基線算法性能越高,最終整合效果越好。例如,在小鼠嗅球數(shù)據(jù)中,不同基線算法整合得到的聚類精度差異高達(dá)0.57。進(jìn)一步分析表明,對(duì)于組織結(jié)構(gòu)清晰、分層明顯的樣本(如鼠腦、人腦背外側(cè)前額葉皮層等),隨著被整合的基線算法數(shù)量增加,集成聚類表現(xiàn)穩(wěn)步提升。然而,對(duì)于細(xì)胞類型分布較分散的癌癥樣本數(shù)據(jù),單一算法集成即可獲得較優(yōu)效果。在多個(gè)評(píng)估指標(biāo)中,平均集成和超圖集成在準(zhǔn)確性與穩(wěn)定性方面均領(lǐng)先,能更穩(wěn)健地識(shí)別不同類型細(xì)胞,尤其是在稀有細(xì)胞群體中優(yōu)勢(shì)明顯(圖3)。這一發(fā)現(xiàn)表明了根據(jù)數(shù)據(jù)特征靈活選擇集成策略與基線算法組合的重要性,為未來空間轉(zhuǎn)錄組數(shù)據(jù)分析提供了實(shí)用參考。

圖4 STCC集成策略在鱗狀細(xì)胞癌數(shù)據(jù)數(shù)據(jù)的探索性分析
在一項(xiàng)針對(duì)人類鱗狀細(xì)胞癌(SCC)的數(shù)據(jù)分析中,STCC集成聚類框架再次展示出強(qiáng)大能力。研究團(tuán)隊(duì)使用ST技術(shù)獲取的12張SCC組織切片數(shù)據(jù),選取其中3張來自同一患者的切片作為代表進(jìn)行分析。由于該數(shù)據(jù)集缺乏明確的空間結(jié)構(gòu)標(biāo)注,研究人員以病理學(xué)家劃定的腫瘤與非腫瘤區(qū)域作為參考標(biāo)準(zhǔn)進(jìn)行評(píng)估。與表現(xiàn)分散、結(jié)構(gòu)模糊的六種基線算法相比,STCC四種共識(shí)策略準(zhǔn)確識(shí)別出下方非腫瘤區(qū)域。基于集成聚類的結(jié)果,研究人員進(jìn)一步構(gòu)建了從非腫瘤區(qū)域向腫瘤區(qū)域的發(fā)育軌跡,發(fā)現(xiàn)非腫瘤細(xì)胞處于更早的“偽時(shí)間”階段,提示其可能為腫瘤細(xì)胞的前體或鄰近影響區(qū)域(圖4)。這些結(jié)果不僅揭示了腫瘤區(qū)域與周邊組織的潛在發(fā)育關(guān)系,也表明STCC在缺乏已知標(biāo)簽的復(fù)雜樣本中,仍可提供可靠的結(jié)構(gòu)解析和發(fā)展路徑推斷,為理解腫瘤發(fā)生發(fā)展機(jī)制提供了新線索。
上海交通大學(xué)醫(yī)學(xué)院?jiǎn)渭?xì)胞組學(xué)與疾病研究中心的鄭小琪教授和北京大學(xué)醫(yī)學(xué)部精準(zhǔn)醫(yī)療多組學(xué)研究中心的吳華君研究員為該論文的通訊作者,上海交通大學(xué)醫(yī)學(xué)院?jiǎn)渭?xì)胞組學(xué)與疾病研究中心的胡聰聰博士為論文的第一作者。北京大學(xué)的魏娜娜博士和上海交通大學(xué)的楊紀(jì)元博士參與了本課題的數(shù)據(jù)分析和模型開發(fā)工作。該研究得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、上海市科技創(chuàng)新行動(dòng)計(jì)劃自然科學(xué)基金等經(jīng)費(fèi)的支持。