近期,上海交通大學(xué)醫(yī)學(xué)院臨床研究中心/上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院俞章盛教授課題組在Nature Communications在線發(fā)表“A foundation model for generalizable cancer diagnosis and survival prediction from histopathological images”論文。該研究開發(fā)一種通用的病理學(xué)基礎(chǔ)模型—BEPH (BEiT-based model Pre-training on Histopathological image),用于癌癥診斷和生存預(yù)測(cè),以克服現(xiàn)有計(jì)算病理學(xué)方法的局限性。生命科學(xué)技術(shù)學(xué)院碩士生楊釗昌,助理研究員魏婷為共同第一作者,生命科學(xué)技術(shù)學(xué)院俞章盛教授和張?jiān)栏毖芯繂T為共同通訊作者。
臨床診斷中,惡性腫瘤的確診依賴病理專家通過顯微鏡分析組織樣本.然而?人工閱片仍高度依賴專家經(jīng)驗(yàn),?且?易受疲勞和資源不足的影響,?這導(dǎo)致?漏診誤診風(fēng)險(xiǎn)大增,?甚至?可能延誤患者后續(xù)的治療規(guī)劃。近年來,計(jì)算病理學(xué)結(jié)合深度學(xué)習(xí)技術(shù)在癌癥檢測(cè)、亞型分類及預(yù)后預(yù)測(cè)等多項(xiàng)任務(wù)上體現(xiàn)出了巨大優(yōu)勢(shì),?其不僅?顯著提升診斷效率,?還能?挖掘傳統(tǒng)方法難以捕獲的潛在信息。?但?其發(fā)展受限于多重挑戰(zhàn):?例如?精細(xì)標(biāo)注數(shù)據(jù)稀缺、模型泛化能力弱及可解釋性不足等問題,?此外?現(xiàn)有模型高度依賴特定任務(wù)標(biāo)注,?一旦?面對(duì)新需求往往需重新開發(fā),?這?進(jìn)一步加劇了資源消耗。

為解決這些問題,俞章盛教授課題組依托掩碼圖像建模(Masked Image Modeling,MIM)方法,成功構(gòu)建了一個(gè)可以有效處理癌癥分析和生存預(yù)測(cè)問題的病理基礎(chǔ)模型—BEPH。該模型的特色在于能利用大規(guī)模未標(biāo)記病理圖像數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),在多種癌癥相關(guān)任務(wù)中展現(xiàn)出廣泛的應(yīng)用前景。相較于參數(shù)量龐大、數(shù)據(jù)需求高的病理基礎(chǔ)模型(如CHIEF等),BEPH通過較少的參數(shù)量和有限預(yù)訓(xùn)練數(shù)據(jù),在保持模型效能相當(dāng)或更優(yōu)的同時(shí),為臨床場(chǎng)景的應(yīng)用開辟了新的路徑和可能性。(圖1)
該模型分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。在預(yù)訓(xùn)練時(shí),研究者收集了來自癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中,包括32種不同類型的癌癥在內(nèi)的約11760張病理圖像,并通過采樣構(gòu)建了1177萬個(gè)224×224像素的預(yù)訓(xùn)練圖像塊數(shù)據(jù)集。在該數(shù)據(jù)集上經(jīng)過自監(jiān)督任務(wù)--掩碼圖像建模充分預(yù)訓(xùn)練后,系統(tǒng)地評(píng)估了模型在各種癌癥檢測(cè)任務(wù)中的性能和多功能性。

多種實(shí)驗(yàn)證明,BEPH能夠靈活地適應(yīng)多種計(jì)算病理學(xué)任務(wù),在Patch級(jí)和WSI級(jí)的癌癥診斷以及生存風(fēng)險(xiǎn)預(yù)測(cè)方面,取得了顯著的改進(jìn)。比如WSI級(jí)別的亞型分類任務(wù)中,在多個(gè)不同的癌癥類型上,BEPH全面優(yōu)于其他弱監(jiān)督模型。即使在訓(xùn)練數(shù)據(jù)減少時(shí),模型依舊保留較高的性能,表明模型能有效緩解臨床環(huán)境中數(shù)據(jù)收集的難題。(圖2)

BEPH在WSI級(jí)別的癌癥檢測(cè)任務(wù)中進(jìn)一步的熱圖分析表明,其注意力區(qū)域(紅色區(qū)域)與病理學(xué)家標(biāo)注的癌變區(qū)域高度一致,說明模型能夠自動(dòng)關(guān)注真正的病理特征。其他模型的關(guān)注區(qū)域較為分散,部分模型甚至未能準(zhǔn)確定位癌變區(qū)域,表明BEPH對(duì)病理特征的判別能力更強(qiáng)。局部放大區(qū)域(綠色框)顯示,BEPH的注意力更加聚焦在癌變區(qū)域及邊界,而非隨機(jī)關(guān)注整個(gè)組織,增強(qiáng)了模型的決策可靠性。(圖3)
總體而言,BEPH為癌癥檢測(cè)、亞型分類和生存預(yù)測(cè)提供了一條通用路徑。它能夠通過預(yù)訓(xùn)練與微調(diào)的途徑實(shí)現(xiàn)對(duì)癌癥病理變化的高效識(shí)別,并為癌癥診斷和患者預(yù)后提供強(qiáng)有力的支持。
該項(xiàng)研究得到國家自然科學(xué)基金、上海市科委、上海交通大學(xué)醫(yī)工交叉基金等的支持。該研究得到上海交通大學(xué)高性能計(jì)算中心的支持。