近期,上海交通大學醫(yī)學院臨床研究中心/上海交通大學生命科學技術(shù)學院俞章盛教授課題組在Nature Communications在線發(fā)表“A foundation model for generalizable cancer diagnosis and survival prediction from histopathological images”論文。該研究開發(fā)一種通用的病理學基礎模型—BEPH (BEiT-based model Pre-training on Histopathological image),用于癌癥診斷和生存預測,以克服現(xiàn)有計算病理學方法的局限性。生命科學技術(shù)學院碩士生楊釗昌,助理研究員魏婷為共同第一作者,生命科學技術(shù)學院俞章盛教授和張岳副研究員為共同通訊作者。
臨床診斷中,惡性腫瘤的確診依賴病理專家通過顯微鏡分析組織樣本.然而?人工閱片仍高度依賴專家經(jīng)驗,?且?易受疲勞和資源不足的影響,?這導致?漏診誤診風險大增,?甚至?可能延誤患者后續(xù)的治療規(guī)劃。近年來,計算病理學結(jié)合深度學習技術(shù)在癌癥檢測、亞型分類及預后預測等多項任務上體現(xiàn)出了巨大優(yōu)勢,?其不僅?顯著提升診斷效率,?還能?挖掘傳統(tǒng)方法難以捕獲的潛在信息。?但?其發(fā)展受限于多重挑戰(zhàn):?例如?精細標注數(shù)據(jù)稀缺、模型泛化能力弱及可解釋性不足等問題,?此外?現(xiàn)有模型高度依賴特定任務標注,?一旦?面對新需求往往需重新開發(fā),?這?進一步加劇了資源消耗。

為解決這些問題,俞章盛教授課題組依托掩碼圖像建模(Masked Image Modeling,MIM)方法,成功構(gòu)建了一個可以有效處理癌癥分析和生存預測問題的病理基礎模型—BEPH。該模型的特色在于能利用大規(guī)模未標記病理圖像數(shù)據(jù)進行自監(jiān)督學習,在多種癌癥相關(guān)任務中展現(xiàn)出廣泛的應用前景。相較于參數(shù)量龐大、數(shù)據(jù)需求高的病理基礎模型(如CHIEF等),BEPH通過較少的參數(shù)量和有限預訓練數(shù)據(jù),在保持模型效能相當或更優(yōu)的同時,為臨床場景的應用開辟了新的路徑和可能性。(圖1)
該模型分為預訓練和微調(diào)兩個階段。在預訓練時,研究者收集了來自癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中,包括32種不同類型的癌癥在內(nèi)的約11760張病理圖像,并通過采樣構(gòu)建了1177萬個224×224像素的預訓練圖像塊數(shù)據(jù)集。在該數(shù)據(jù)集上經(jīng)過自監(jiān)督任務--掩碼圖像建模充分預訓練后,系統(tǒng)地評估了模型在各種癌癥檢測任務中的性能和多功能性。

多種實驗證明,BEPH能夠靈活地適應多種計算病理學任務,在Patch級和WSI級的癌癥診斷以及生存風險預測方面,取得了顯著的改進。比如WSI級別的亞型分類任務中,在多個不同的癌癥類型上,BEPH全面優(yōu)于其他弱監(jiān)督模型。即使在訓練數(shù)據(jù)減少時,模型依舊保留較高的性能,表明模型能有效緩解臨床環(huán)境中數(shù)據(jù)收集的難題。(圖2)

BEPH在WSI級別的癌癥檢測任務中進一步的熱圖分析表明,其注意力區(qū)域(紅色區(qū)域)與病理學家標注的癌變區(qū)域高度一致,說明模型能夠自動關(guān)注真正的病理特征。其他模型的關(guān)注區(qū)域較為分散,部分模型甚至未能準確定位癌變區(qū)域,表明BEPH對病理特征的判別能力更強。局部放大區(qū)域(綠色框)顯示,BEPH的注意力更加聚焦在癌變區(qū)域及邊界,而非隨機關(guān)注整個組織,增強了模型的決策可靠性。(圖3)
總體而言,BEPH為癌癥檢測、亞型分類和生存預測提供了一條通用路徑。它能夠通過預訓練與微調(diào)的途徑實現(xiàn)對癌癥病理變化的高效識別,并為癌癥診斷和患者預后提供強有力的支持。
該項研究得到國家自然科學基金、上海市科委、上海交通大學醫(yī)工交叉基金等的支持。該研究得到上海交通大學高性能計算中心的支持。