近日,,上海交通大學(xué)公共衛(wèi)生學(xué)院,、上海交通大學(xué)醫(yī)學(xué)院?jiǎn)渭?xì)胞組學(xué)與疾病研究中心鄭小琪課題組在基因組學(xué)領(lǐng)域頂級(jí)期刊Genome Biology雜志發(fā)表了題為GraphPCA: a fast and interpretable dimension reduction algorithm for spatial transcriptomics data的方法論文章。該研究開發(fā)了一個(gè)快速,、可解釋性的擬線性降維算法——GraphPCA,。基于模擬實(shí)驗(yàn)及真實(shí)數(shù)據(jù)的評(píng)估結(jié)果表明,,GraphPCA有效提升了包含空間域檢測(cè),、降噪以及軌跡推斷等多項(xiàng)下游分析任務(wù)的性能。這項(xiàng)研究為空間轉(zhuǎn)錄組數(shù)據(jù)的分析提供了一個(gè)強(qiáng)有力的新工具,,有助于更深入地理解細(xì)胞在組織中的復(fù)雜相互作用和功能,。

近年來,空間轉(zhuǎn)錄組(Spatial transcriptomics, ST) 技術(shù)的快速發(fā)展使得研究人員在獲取基因表達(dá)譜的同時(shí)保留了細(xì)胞在組織中的空間位置信息,,從而能夠揭示組織內(nèi)細(xì)胞在空間結(jié)構(gòu)上的異質(zhì)性,。然而,空間轉(zhuǎn)錄組數(shù)據(jù)具有高稀疏性,、高維性和低信噪比等特點(diǎn),,為后續(xù)數(shù)據(jù)分析帶來了巨大挑戰(zhàn)。作為下游分析前必要的預(yù)處理步驟,,降維不僅可以提高信噪比,,還能有效緩解維數(shù)災(zāi)難。目前,,大多數(shù)研究人員直接將針對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的降維算法應(yīng)用到空間轉(zhuǎn)錄組數(shù)據(jù)(如Seurat,、Scanpy、STUtility等),。然而,,這些方法未能充分利用ST數(shù)據(jù)中的空間信息,可能導(dǎo)致低維嵌入的效率降低,,甚至錯(cuò)誤的生物學(xué)發(fā)現(xiàn),。雖然近期已有一些專門針對(duì)ST數(shù)據(jù)的降維算法(如SpatialPCA、DR-SC等),,但這些方法或依賴復(fù)雜的參數(shù)推斷,,或缺乏模型可解釋性。為了克服這些缺陷,本研究基于圖正則化表示以及主成分分析法,,開發(fā)了一種快速,、可解釋的擬線性降維算法——GraphPCA,該算法可以有效處理空間轉(zhuǎn)錄組數(shù)據(jù),,并提高了低維嵌入的生物學(xué)解釋能力,。

GraphPCA建立在靈活的主成分分析框架上,它通過利用位點(diǎn)/細(xì)胞之間的空間鄰域結(jié)構(gòu)作為圖約束,,使得低維嵌入能夠有效地保留位置信息,。GraphPCA的輸入包括基因表達(dá)矩陣和位點(diǎn)的空間坐標(biāo),這些信息被用于構(gòu)建位點(diǎn)/細(xì)胞間的空間鄰域圖(默認(rèn)為k近鄰圖),。與經(jīng)典的主成分分析方法不同,,GraphPCA通過求解一個(gè)受空間鄰域圖約束的優(yōu)化問題來推斷整合了空間位置和基因表達(dá)信息的低維嵌入矩陣。由于該優(yōu)化問題存在封閉解,,GraphPCA的計(jì)算效率遠(yuǎn)高于基于深度學(xué)習(xí)的方法,,從而可以高效地處理不同規(guī)模的ST數(shù)據(jù)。通過圖約束,,GraphPCA可以使相鄰位點(diǎn)/細(xì)胞在低維空間中的投影更加接近,,并且每個(gè)嵌入維度都與特定的空間基因表達(dá)模式高度相關(guān),這使得基因-成分的投影矩陣能夠反映共表達(dá)基因模塊的空間表達(dá)差異性,。
作者隨后在大量模擬數(shù)據(jù)和不同物種,、組織區(qū)域、測(cè)序技術(shù)的真實(shí)數(shù)據(jù)上進(jìn)行了廣泛的評(píng)估,,驗(yàn)證了GraphPCA得到的低維嵌入在空間域檢測(cè),、軌跡推斷和去噪等下游分析任務(wù)中的性能。此外,,GraphPCA模型的靈活性使其能夠輕松擴(kuò)展到多樣本整合,,通過融合其它切片的基因表達(dá)信息進(jìn)一步提高空間域檢測(cè)的準(zhǔn)確性。
上海交通大學(xué)公共衛(wèi)生學(xué)院,、上海交通大學(xué)醫(yī)學(xué)院?jiǎn)渭?xì)胞組學(xué)與疾病研究中心的鄭小琪教授為該論文的通訊作者,,中心科研助理?xiàng)罴o(jì)元為該論文的第一作者,上海交通大學(xué)自然科學(xué)研究院的劉林副教授為課題的開展提供了大力支持,。該研究得到國(guó)家自然科學(xué)基金,、上海市科技創(chuàng)新行動(dòng)計(jì)劃自然科學(xué)基金及數(shù)據(jù)科學(xué)與智慧教育教育部重點(diǎn)實(shí)驗(yàn)室的經(jīng)費(fèi)支持。