博客專欄

EEPW首頁 > 博客 > MIT設(shè)計深度學習框架登Nature封面,預測非編碼區(qū)DNA突變

MIT設(shè)計深度學習框架登Nature封面,預測非編碼區(qū)DNA突變

發(fā)布人:機器之心 時間:2022-03-19 來源:工程師 發(fā)布文章

來自 MIT 和哈佛大學博德研究所等機構(gòu)的一項研究剛剛登上了 Nature 封面。他們創(chuàng)建了一個數(shù)學框架來預測基因組中非編碼序列的突變及其對基因表達的影響。研究人員將能夠利用這些模型來設(shè)計細胞、研發(fā)新****、尋找包括癌癥和自身免疫性疾病在內(nèi)的疾病新療法。

盡管每個人類細胞都包含大量基因,但所謂的「編碼」DNA 序列僅占人類整個基因組的 1%。剩下的 99% 由「非編碼」DNA 組成,非編碼 DNA 不攜帶構(gòu)建蛋白質(zhì)的指令。


這種非編碼 DNA(也稱為調(diào)控 DNA)的一個重要功能是幫助打開和關(guān)閉基因,控制蛋白質(zhì)的合成量。隨著時間的推移,細胞復制它們的 DNA 以生長和分裂,這些非編碼區(qū)域經(jīng)常會出現(xiàn)突變——有時會調(diào)整它們的功能并改變它們控制基因表達的方式。這些突變大多是微不足道的,但有時可能會增加一些疾病風險,包括癌癥。


為了更好地了解此類突變的影響,研究人員一直在努力研究數(shù)學圖譜,這些圖譜使他們能夠查看生物體的基因組,預測哪些基因?qū)⒈槐磉_,并確定該表達將如何影響生物體的可觀察特征。在生物學中,這些圖譜被稱為「適應度地形(fitness landscape)」,大約在一個世紀前被概念化,以了解基因構(gòu)成如何影響一種常見的有機體適應度,特別是繁殖成功率。


早期的適應度地形非常簡單,通常只關(guān)注有限數(shù)量的突變。現(xiàn)在有更豐富的數(shù)據(jù)集可以使用,但研究人員仍然需要額外的工具來表征和可視化這些復雜的數(shù)據(jù)。這種能力不僅有助于更好地理解單個基因如何隨著時間的推移而進化,而且還有助于預測未來可能發(fā)生的序列和表達變化。


近日,來自麻省理工學院和哈佛大學博德研究所等機構(gòu)的研究者開發(fā)了一種新框架來研究調(diào)控 DNA 的適應度地形。該研究利用在數(shù)億次實驗測量結(jié)果上進行訓練的神經(jīng)網(wǎng)絡(luò)模型,預測酵母菌 DNA 中非編碼序列的變化及其對基因表達的影響,登上了最新一期《自然》雜志的封面。


圖片


論文地址:https://www.nature.com/articles/s41586-022-04506-6


該研究還設(shè)計了一種以二維方式表示適應度地形的獨特方式,使其對于酵母以外的其他生物也能夠理解已有的實驗結(jié)果并預測非編碼序列的未來演變,甚至有望為基因治療和工業(yè)應用設(shè)計自定義的基因表達模式。


該研究的主要作者之一、MIT 生物學教授 Aviv Regev 說:「科學家們現(xiàn)在可以使用該模型解決一些進化問題或完成一些設(shè)想,例如以所需方式制作控制基因表達的序列。」


圖片

Aviv Regev


在這項研究之前,許多研究人員只是簡單地在自然界存在的已知突變上訓練他們的模型。然而,Regev 的團隊想要更進一步。他們建立了自己的無偏模型,該模型能夠基于任何可能的 DNA 序列,甚至是以前從未見過的序列,預測生物體的適應度和基因表達。研究人員將能夠利用這些模型來設(shè)計細胞,研發(fā)新****,尋找包括癌癥和自身免疫性疾病在內(nèi)的疾病新療法。


為了實現(xiàn)這一目標,麻省理工學院研究生 Eeshit Dhaval Vaishnav、哥倫比亞大學助理教授 Carl de Boer(論文共同一作)等人創(chuàng)建了一個神經(jīng)網(wǎng)絡(luò)模型來預測基因表達。他們在一個數(shù)據(jù)集上訓練模型,并觀察每個隨機序列如何影響基因表達,該數(shù)據(jù)集是通過將數(shù)百萬個完全隨機的非編碼 DNA 序列插入酵母菌中生成的。他們專注于非編碼 DNA 序列的一個特定子集——啟動子,它是蛋白質(zhì)的結(jié)合位點,可以打開或關(guān)閉附近的基因。


Regev 說,「這項工作表明,當我們設(shè)計新的實驗來生成正確的數(shù)據(jù)以訓練模型時,將會出現(xiàn)什么樣的可能性。從更廣泛的意義上說,我相信這些方法對許多問題都很重要,比如理解人類基因組中帶來疾病風險的調(diào)控區(qū)域的遺傳變異,以及預測突變組合的影響,或設(shè)計新的分子?!?/span>


Regev、Vaishnav、de Boer 和他們的合著者繼續(xù)以各種方式測試他們的模型的預測能力?!竸?chuàng)建一個準確的模型當然是一項成就,但對我來說,這只是一個起點,」Vaishnav 解釋道。


首先,為了確定他們的模型是否有助于合成生物學應用,如生產(chǎn)抗生素、酶和食物,研究人員使用它來設(shè)計能夠為任何感興趣的基因產(chǎn)生所需表達水平的啟動子。然后,他們查閱了其他的科學論文,以確定基本的演化問題,看看他們的模型能否幫助解答這些問題。該團隊甚至還從一項現(xiàn)有研究中獲取了真實世界的種群數(shù)據(jù)集,其中包含了世界各地酵母菌株的遺傳信息。通過這些方法,他們能夠描繪出過去數(shù)千年的選擇壓力,這種壓力塑造了今天的酵母基因組。


但是,為了創(chuàng)造一個可以探測所有基因組的強大工具,研究人員需要找到一種方法,在沒有這樣一個全面的種群數(shù)據(jù)集的情況下預測非編碼序列的進化。為了實現(xiàn)這一目標,Vaishnav 和他的同事們設(shè)計了一種計算方法,允許他們將來自框架的預測繪制到二維圖上。這幫助他們以非常簡單的方式展示了任何非編碼 DNA 序列如何影響基因表達和適應度,而無需在實驗室工作臺進行任何耗時的實驗。


圖片


Vaishnav 解釋說:「之前,適應度地形中有一個未解決的問題,即沒有一種方法可以以一種有意義地捕捉序列進化特性的方式將它們可視化。我真的很想找到一種方法來填補這一空白,并為創(chuàng)造一個完整的適應度環(huán)境的長期愿景做出貢獻?!?/span>


愛丁堡大學醫(yī)學研究委員會人類遺傳學部門的遺傳學教授 Martin Taylor 表示,這項研究表明,人工智能不僅可以預測調(diào)控 DNA 變化的影響,還可以揭示支配數(shù)百萬年進化的潛在原則。


盡管該模型只在少數(shù)幾種生長條件下的一小部分酵母調(diào)節(jié) DNA 上進行了訓練,但讓他印象深刻的是,這個模型竟然能夠?qū)Σ溉閯游锘蛘{(diào)控的進化做出如此有用的預測。


這項研究因其在設(shè)計生物 DNA 序列方面的重要影響而受到諸多關(guān)注,甚至在該研究正式發(fā)表之前,Vaishnav 就已經(jīng)收到了一些研究人員的詢問,希望將該模型設(shè)計用于基因治療的非編碼 DNA 序列。


這項工作近期已經(jīng)有了一些具體的應用,包括在釀造、烘焙和生物技術(shù)中為酵母自定義設(shè)計調(diào)控 DNA。 


Martin Taylor 還評價稱:「這項工作未來有望幫助識別人類調(diào)控 DNA 中的疾病突變,這些突變目前在臨床上很難找到并且在很大程度上被忽視了。這項工作表明,在更豐富、更復雜和更多樣化的數(shù)據(jù)集上訓練的基因調(diào)控 AI 模型有著光明的未來?!?/span>


原文鏈接:https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉