科學(xué)家結(jié)合機器學(xué)習(xí)方法,開發(fā)可預(yù)測“細胞分化命運”模型,能用于再生治療及癌癥預(yù)測等
世界上沒有兩片相同的樹葉,細胞也一樣。利用基因表達研究中的一項重要技術(shù)單細胞轉(zhuǎn)錄組測序,可以把數(shù)以十萬甚至百萬量級的單個細胞分離出來,對細胞里面表達的所有 RNA 分子進行測序,從而以極高通量和高分辨率揭示細胞的狀態(tài)和分化轉(zhuǎn)變。然而,目前分析這些單細胞數(shù)據(jù)的工具主要集中于簡單的描述和統(tǒng)計分析,還未有能夠充分推斷并揭示細胞命運轉(zhuǎn)變機理甚至做出高精度預(yù)測的方法及模型。
為此,美國麻省理工學(xué)院(MIT)喬納森·韋斯曼(Jonathan Weissman)課題組和匹茲堡大學(xué)醫(yī)學(xué)院邢建華課題組聯(lián)合開發(fā)了一個可預(yù)測細胞未來分化命運的模型 dynamo(相關(guān)開源工具包鏈接: https://github.com/aristoteleo/dynamo-release),該模型還能給出相應(yīng)的發(fā)育方程來具體解釋導(dǎo)致細胞最終分化的關(guān)鍵基因及作用機制。人類因此有一天或能實現(xiàn)“定制”所需的特定細胞。
2022 年 2 月 1 日,相關(guān)論文以《繪制單細胞的轉(zhuǎn)錄組矢量場圖》(Mapping transcriptomic vector fields of single cells)為題發(fā)表在 Cell 上,MIT 喬納森·韋斯曼實驗室博士后邱肖杰和匹茲堡大學(xué)邢建華實驗室博士生張衍擔(dān)任共同第一作者,邱肖杰、 邢建華及喬納森·韋斯曼為共同通訊作者。
圖 | 相關(guān)論文(來源:Cell)
據(jù)了解,dynamo 模型結(jié)合了內(nèi)在 RNA 剪接和 RNA 代謝標(biāo)記動力學(xué)來得出準(zhǔn)確的絕對 RNA 速度,并采用機器學(xué)習(xí)方法構(gòu)建高維速度矢量場,還結(jié)合微分幾何分析算法來闡明潛在的調(diào)節(jié)網(wǎng)絡(luò),甚至可以通過物理里的最小作用量方法來預(yù)測細胞命運轉(zhuǎn)變的最優(yōu)路徑和關(guān)鍵轉(zhuǎn)錄因子,且實現(xiàn)全基因組基因敲除對細胞狀態(tài)和命運擾動的準(zhǔn)確預(yù)測。
該團隊將 dynamo 這個理論工具應(yīng)用于各種不同的生物過程,包括預(yù)測分化的造血干細胞系的未來狀態(tài)、揭露出細胞周期進展和與之正交的糖皮質(zhì)激素反應(yīng)、提供了造血干細胞發(fā)育過程中幾個懸而未決的問題的可能分子機制,包括巨核細胞相對于其他干細胞譜系的更早期發(fā)育以及嗜堿細胞的兩條可能發(fā)育路徑等。
動 圖 | 人造血干細胞分化預(yù)測動畫(來源:邱肖杰)
邱肖杰提到,這項研究的重要貢獻在于其超越了之前基于數(shù)據(jù)的描述性方法,首次直接利用高通量數(shù)據(jù)學(xué)習(xí)出了能夠揭示細胞動態(tài)變化過程的方程。這得益于過去十年里機器學(xué)習(xí)方法和單細胞測序技術(shù)日新月異的進步。
從一定程度上,這個工作的重要意義,類似于 400 年前天文學(xué)家第谷·布拉赫(Tycho Brahe)的學(xué)生約翰尼斯·開普勒(Johannes Kepler)對其收集的天體運動大數(shù)據(jù)進行分析而得出行星運動三大定律。隨著實驗方法的進一步發(fā)展以及更高通量和精度數(shù)據(jù)的產(chǎn)生,生物學(xué)將同物理學(xué)一般邁進一個更加定量的時代。
另外,需要特別強調(diào)的是,dynamo 的核心技術(shù)是采用了機器學(xué)習(xí)和深度學(xué)習(xí)的方法,這些方法特別適合處理大數(shù)據(jù)。但問題是,機器學(xué)習(xí)模型通常被認為是一個“黑箱”。因此,該團隊通過引入物理學(xué)方面的動力系統(tǒng)分析方法,將“黑箱”拆解成一些直觀的、有物理意義且與細胞發(fā)育相關(guān)的具體變量。
圖 | 研究過程(來源:邱肖杰)
不過,邱肖杰表示,相關(guān)研究論文的發(fā)表并非一帆風(fēng)順。該研究是 2018 年底邱肖杰加入喬納森·韋斯曼實驗室做博士后時立題,再從形成一個多學(xué)科的完整團隊到最后發(fā)表,總共歷時近 3 年半的時間。
而且,在論文審稿過程中,該團隊也遇到不少困難,他們收到了一些諸如“預(yù)測不夠令人印象深刻”“新意不夠”等的審稿人評價。為此,他們花了 3~4 個月的時間進行造血發(fā)育的相關(guān)實驗,又花了了另外 4 個月左右的時間分析數(shù)據(jù),在論文中增加了對不同細胞轉(zhuǎn)變的預(yù)測,并基本達到 85% 的準(zhǔn)確率,論文最終順利被接收。
邱肖杰指出,這項研究的應(yīng)用場景很廣,且不限于具體問題,基本能夠用單細胞測序研究的生物動態(tài)過程都適用。首先,dynamo 模型可以得出在細胞變化過程中發(fā)揮作用的特定基因,并預(yù)測將來這個細胞會怎么變化,所以可用于臨床上的重大疾病診斷,如只需提取患者的一點細胞就可以分析預(yù)測其得癌癥的概率及病發(fā)時間等。
其次,dynamo 模型能夠?qū)Σ煌煅毎g轉(zhuǎn)變所需要的途徑進行預(yù)測,可用于再生醫(yī)療。例如,人在皮膚燒傷時,研究人員可以將其他部位細胞轉(zhuǎn)變成皮膚細胞來進行康復(fù)治療;對待精神類疾病患者,研究人員可以將其大腦中的膠質(zhì)細胞轉(zhuǎn)變成神經(jīng)細胞來緩解病癥。
該團隊稱,后續(xù)他們希望把 dynamo 模型與空間組織、蛋白質(zhì)的表達和表觀遺傳及更多領(lǐng)域整合起來,作進一步的研究。此外,他們將嘗試使用這個工具解決更為具體的生物問題,如衰老的防止,即把一個老年細胞變回年輕時的狀態(tài)。值得注意的是,邱肖杰最近還利用 dynamo 幫助科技前沿機構(gòu)華大基因分析其大視場高精度的空間基因組學(xué)方法 Stereo-seq(https://www.biorxiv.org/content/10.1101/2021.01.17.427004v3),相關(guān)研究論文不久后會在 Cell 刊出。
圖 | 邱肖杰(來源:邱肖杰)
據(jù)了解,邱肖杰是湖南人,本科畢業(yè)于長春工業(yè)大學(xué),隨后分別在華東師范大學(xué)和華盛頓大學(xué)獲得碩士和博士學(xué)位,目前在 MIT 攻讀博士后。此外,現(xiàn)在他已經(jīng)開始在美國申請教授職務(wù),并希望在將來建立一個結(jié)合機器學(xué)習(xí)、單細胞技術(shù)和系統(tǒng)生物學(xué)的實驗室。
最后他談到,這項研究雖然屬于生物學(xué)領(lǐng)域,但還需要結(jié)合物理方面的學(xué)科知識,而他不是學(xué)物理出身。幸運的是,他遇到了論文的通訊作者之一的匹茲堡大學(xué)邢建華教授。邢建華所在的課題組長期以來一直在用數(shù)學(xué)和物理的思維及手段解決生物學(xué)問題,包括細胞分化的認識與調(diào)控方面。
隨后,又有張衍加入到研究中。張衍的數(shù)理功底特別好,做了許多模型上的工作,幫助加快了整個研究過程的推進速度。
邱肖杰表示,“合作很重要,現(xiàn)在幾乎沒有通才,只有合作才能把研究做得更快和更加深入?!?/span>
-End-
支持:熊岳城
參考:
1.Xiaojie Qiu et al. Mapping Transcriptomic Vector Fields of Single Cells. Cell(2022)https://doi.org/10.1016/j.cell.2021.12.045
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。