堿基編輯是一項具有巨大潛力的基因治療技術(shù),,它可以用來修復(fù)或修改個體的基因,,從而治療一些遺傳性疾病和其他疾病。堿基編輯器可以在不產(chǎn)生雙鏈DNA斷裂的基礎(chǔ)上高效催化堿基轉(zhuǎn)換,,主要包括ABE和CBE兩種,,分別實現(xiàn)A-to-G和C-to-T的轉(zhuǎn)換,。然而,研究發(fā)現(xiàn)gRNA在靶向編輯的同時會與非靶點DNA序列錯配,,引入非預(yù)期的基因突變,,即脫靶編輯,這嚴(yán)重制約了基因編輯技術(shù)的廣泛應(yīng)用,。傳統(tǒng)的檢測脫靶實驗既耗時又成本高,。為了解決這個問題,2023年9月2日,,公共衛(wèi)生學(xué)院王慧課題組聯(lián)合復(fù)旦大學(xué)生命科學(xué)學(xué)院王永明課題組,、復(fù)旦大學(xué)附屬浦東醫(yī)院余波課題組在Nature Communications上發(fā)表了題為《基于深度學(xué)習(xí)的堿基編輯脫靶預(yù)測》(Prediction of base editor off-targets by deep learning)的文章,該研究的共同第一作者為公共衛(wèi)生學(xué)院的張成東助理研究員及其團隊成員楊元,。該研究利用深度學(xué)習(xí)的方法針對ABE和CBE分別構(gòu)建了gRNA脫靶的預(yù)測模型,,為它們的廣泛應(yīng)用奠定了基礎(chǔ)。這些模型可以在網(wǎng)站上免費在線使用(http://www.deephf.com/#/bedeep/bedeepoff),,也可以通過代碼倉庫在本地部署使用(https://github.com/izhangcd/BEdeep),。

首先,研究者針對ABE和CBE分別設(shè)計了超過9萬對gRNA和脫靶序列,,這些序列覆蓋了1~6bp的錯配和1~2bp的插入缺失等脫靶類型,。通過將每個gRNA及其脫靶序列合成到一個oligo DNA上建立慢病毒文庫,。將文庫感染表達(dá)ABE和CBE的細(xì)胞,,待脫靶序列編輯后,使用PCR擴增并進行高通量測序,,最終得到每個gRNA的脫靶編輯效率,。脫靶編輯效率被定義為包含特定堿基編輯類型的Reads數(shù)量與總Reads數(shù)量的比值。該研究過濾總Reads數(shù)量少于100的gRNA-脫靶序列組合,,以獲得高質(zhì)量的數(shù)據(jù)集,。為消除不同gRNA靶向編輯效率的差異,,使用脫靶與靶向編輯效率的比值代替原始的脫靶編輯效率,用以表示對脫靶編輯的耐受情況,。脫靶類型分析發(fā)現(xiàn)所有的突變類型都會導(dǎo)致編輯效率比值降低,。此外,脫靶位置分析發(fā)現(xiàn)1~10位的突變比11~20位的突變對編輯效率比值的影響更小,。

圖1.BEdeepoff流程圖a.脫靶編輯效率的標(biāo)準(zhǔn)化,。b.數(shù)據(jù)集拆分得到訓(xùn)練集和測試集。c.深度學(xué)習(xí)模型結(jié)構(gòu)示意圖
其次,,研究者訓(xùn)練了一種基于融合嵌入的深度學(xué)習(xí)模型,,包含Embedding,LSTM,,Attention等模塊,。模型將gRNA和脫靶序列作為輸入,多種脫靶序列共享相同的gRNA,。為防止訓(xùn)練過程中g(shù)RNA的信息泄漏,,根據(jù)gRNA序列將gRNA和脫靶序列對分組,并使用"GroupKFold"的方式將數(shù)據(jù)集分為訓(xùn)練集和測試集,。內(nèi)部測試數(shù)據(jù)集的結(jié)果表明模型在1~2 bp的錯配和1bp的插入缺失上性能表現(xiàn)較好,。對于外部內(nèi)源位點測試數(shù)據(jù),模型預(yù)測結(jié)果與真實值之間的相關(guān)性在0.710-0.859,。特征歸因分析發(fā)現(xiàn)突變位置的歸因分?jǐn)?shù)都在0以下,,表明這些位置對最終的預(yù)測結(jié)果具有負(fù)貢獻(xiàn)。
該研究通過結(jié)合高通量測序與深度學(xué)習(xí)實現(xiàn)了ABE和CBE的脫靶預(yù)測,,模型結(jié)構(gòu)簡單高效,,填補了堿基編輯脫靶預(yù)測問題的空白,有助于幫助研究者使用設(shè)計良好的RNA引導(dǎo)序列,,降低脫靶可能性,。同時該方法也可以推廣至其他堿基編輯器的脫靶預(yù)測。
復(fù)旦大學(xué)生命科學(xué)學(xué)院王永明教授,、復(fù)旦大學(xué)附屬浦東醫(yī)院余波教授,、公共衛(wèi)生學(xué)院/單細(xì)胞組學(xué)與疾病研究中心王慧教授為該論文的通訊作者。公共衛(wèi)生學(xué)院/單細(xì)胞組學(xué)與疾病研究中心張成東助理研究員,、楊元碩士為該論文共同第一作者,。該研究得到科技部、基金委和上海市科委等多項基金的資助,。
原文鏈接:https://doi.org/10.1038/s41467-023-41004-3