Alexander Tropsha：AI從零自學設計新型****物分子，研究登Science子刊｜42問AI與機器人未來

發(fā)布人：騰訊AI實驗室時間：2020-10-07 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

9月2日在深圳舉辦的首屆「Nature Conference - AI與機器人大會」上，Alexander Tropsha 教授將給出他的答案。

本屆大會由騰訊 AI Lab 攜手Nature Research（自然科研）及旗下《自然-機器智能》、《自然-生物醫(yī)學工程》兩本期刊聯(lián)合舉辦。大會上將發(fā)布「42個 AI 與機器人大問題」報告，并邀請 11 位世界知名學者為這些宏大問題給出每個人獨特而深刻的理解與答案。在報告中，我們還邀請到 Yoshua Bengio、Jürgen Schmidhuber和多位中國院士提供專家見解。

「42 」源自科幻小說《銀河系漫游指南》，是智能計算機「Deep Thought（深思）」經(jīng)過 750 萬年運算，找到的「關于生命，宇宙及一切問題的終極答案」。我們希望這個有終極目標意涵的 42 個大問題，能激發(fā)對人、AI與機器人未來的長遠思考與規(guī)劃。

下面我們將開啟一段旅程，看看讓AI武裝「****物獵手」的 Alexander Tropsha 教授，如何思考AI在生物醫(yī)學研究和****物開發(fā)中的作用。

Alexander Tropsha 是計算化學、化學信息學和結構生物信息學專家，現(xiàn)為美國北卡羅來納大學教堂山分校（UNC）教授，同時擔任該校 Eshelman ****學院****物信息學和數(shù)據(jù)科學副院長。

Alexander Tropsha 撰寫了190多篇論文和20本著作/章節(jié)，在化學信息學領域的貢獻尤為突出。目前，他正致力于為計算機輔助****物設計開發(fā)新的方法和軟件工具，以幫助降低****物研發(fā)成本，縮短新****發(fā)現(xiàn)時間。他還領導著 UNC 的分子建模實驗室，研究項目包括用化學信息學的方法開發(fā)定量構效關系（QSAR）建模，計算ADME-Tox建模和化學安全性評估，以及用計算幾何方法來分析蛋白質(zhì)結構 - 功能關系，建立能夠預測孤兒蛋白功能的模型等。

AI從零開始自學設計新型****物分子

去年7月，Tropsha 教授及其團隊在 Science Advances 上公布了一種基于深度強化學習的新方法ReLeaSE（Reinforcement Learning for Structural Evolution，用于結構演化的強化學習）。該方法可以從零開始自學設計具有所需物理、化學或生物活性的新型****物分子，有望大幅加快新****研發(fā)速度。

ReLeaSE 集成了兩個深度神經(jīng)網(wǎng)絡——生成和預測神經(jīng)網(wǎng)絡。生成模型通過堆棧增強的記憶網(wǎng)絡來訓練，以產(chǎn)生化學上可行的SMILES（simplified molecular-input line-entry system，簡化分子線性輸入系統(tǒng)）字符串，預測模型則用來預測新生成化合物的屬性。這兩個神經(jīng)網(wǎng)絡的角色如同老師和學生，老師了解大約170萬種已知分子化學結構背后的規(guī)則，而學生通過與老師合作，學習創(chuàng)造新型****物分子。「如果新分子具有現(xiàn)實可行性和期待的效果，老師就會批準。反之，老師就會否決，讓學生避免創(chuàng)造糟糕的分子結構，而去制造有用的分子?！筎ropsha 說。

ReLeaSE的第一個階段中，會使用監(jiān)督學習算法分別訓練生成模型和預測模型。第二個階段中，兩種模型使用強化學習方法一起訓練，以產(chǎn)生具有所需物理和生物特性的新化學結構。

深度強化學習算法的工作流程，用于生成具有所需屬性的新SMILES化合物字符串。

虛擬篩選計算方法可以讓科學家評估現(xiàn)有的大型化學庫，已被制****行業(yè)廣泛用于識別可行候選****物，但該方法僅適用于已知的化學物。ReLeaSE是虛擬篩選的一大創(chuàng)新，具有創(chuàng)建和評估新型分子的獨特能力，可以像「私人廚師」一樣為科學家提供他們想要的任何「菜肴」，而不再受「菜單」限制。

Tropsha團隊使用ReLeaSE生成了具有指定屬性（如指定的生物活性和安全性）的分子，還可以設計具有定制物理特性（如熔點和水溶性）的分子，以及設計具有抑制活性的白血病相關酶的新型化合物。ReLeaSE有望縮短新****候選臨床試驗所需的時間，對于行業(yè)來說極具吸引力。

由生成模型產(chǎn)生的分子樣本

用機器學習方法研究難溶性****物遞送

如上文所述，計算建模的方法目前在****物發(fā)現(xiàn)領域中已得到廣泛應用。但是，該方法在****物遞送領域的研究還很稀少。今年6月，Tropsha 團隊在 Science Advance 上發(fā)表論文，開創(chuàng)性地利用機器學習方法來研究聚合物膠束對難溶性****物的遞送。

許多具有良好活性的****物由于溶解性差，口服給****受限，大約40％的候選****物因此不能進入臨床，這是開發(fā)高效****物的主要障礙之一。傳統(tǒng)實驗方法在開發(fā)****物遞送系統(tǒng)方面取得了一些進展，但過程耗時且昂貴，亟需計算機輔助方法來設計和優(yōu)化****物分子的遞送系統(tǒng)。計算機輔助方法可以使早期決策簡化開發(fā)過程，并通過將候選****物與其首選的遞送系統(tǒng)相匹配來減少候選****物的浪費。

Tropsha 團隊在該研究中選擇了聚合物膠束作為口服給****的載體。聚合物膠束是由兩親性聚合物自發(fā)形成的熱力學穩(wěn)定體系，可以顯著改善****物的溶解性，增加透過生物膜的****量，從而提高****效。團隊通過利用一種新的描述符和隨機森林算法對聚合物膠束的****物遞送進行研究。

首先，研究人員篩選出41種化合物****物進行實驗測試，并得到了408個實驗數(shù)據(jù)點。隨后進行化學信息學分析，團隊開發(fā)了新的****物 - 聚合物系統(tǒng)描述符，反映小分子和聚合物的化學結構，并根據(jù)該描述符結合隨機森林算法來構建QSAR模型。最后，通過QSAR模型進行虛擬篩選，選出有較高效率和能力的聚合物膠束，并進行實驗驗證。

研究設計

實驗結果顯示，該計算機輔助策略使得****物制劑設計的成功率顯著增加。傳統(tǒng)實驗方法命中率約為48％，而使用本研究中開發(fā)的模型來設計新配方，命中率從48％提高到75％，幾乎是原來的兩倍?！冈撗芯康某晒φf明了計算機輔助設計新型****物遞送系統(tǒng)的能力，在****物遞送領域應該更廣泛地應用計算建模方法。」Tropsha 論文中寫道。

除了利用AI技術設計新****、研究****物遞送，Tropsha 還一直關注如何設計更好的系統(tǒng)來預測新化學產(chǎn)品的風險，為負責評估新****和其他化學產(chǎn)品的監(jiān)管機構（如FDA和環(huán)境保護局）提供更準確的工具來支持監(jiān)管決策，避免錯誤的毒性篩選浪費大量資金和時間。Tropsha 團隊曾對廣泛應用的篩選工具PAINS alerts（假陽性****物警報）提出質(zhì)疑，在分析了上千個化合物后認為該工具的實際作用并不可信?！赣嬎愎ぞ呖梢詭椭诸愡^程尋找新的****物化合物，但若使用不當，相同的工具也可能會阻止****物進入市場。」Tropsha 說。

目前，Tropsha 領導的UNC分子模擬實驗室正在計算機輔助****物設計、化學信息學和結構生物信息學等廣泛領域開展研究，致力于開發(fā)用于表征復雜分子的新描述符，分析篩選數(shù)據(jù)的新技術，設計具有高預期命中率的新化合物和文庫等等。9月2日，Tropsha 教授將在AI與機器人大會上帶來他的前沿研究成果，并分享關于生物醫(yī)學研究中AI應用的洞見，敬請期待。

｜演講摘要

《用于****物發(fā)現(xiàn)的生物醫(yī)學知識圖譜挖掘和AI方法》

Biomedical Knowledge Graph Mining and AI Approaches to Drug Discovery

不同的生物醫(yī)學學科領域已在過去創(chuàng)建了許多數(shù)據(jù)庫。首先我將討論美國國立衛(wèi)生研究院（NIH）所贊助的生物醫(yī)學數(shù)據(jù)轉(zhuǎn)譯器和推理項目（Biomedical Data Translator and Reasoning），該項目的目標是探索這些在全面的生物醫(yī)學知識圖譜中互相關聯(lián)的數(shù)據(jù)庫或知識源，以揭示現(xiàn)有****物的臨床結果路徑。這樣的研究能加速發(fā)現(xiàn)現(xiàn)有****物的新治療選擇；但是，發(fā)現(xiàn)全新的****物也有很強的醫(yī)療需求。目前，我們已經(jīng)開發(fā)出了一種基于深度學習和強化學習技術的全新的計算策略，可基于基礎分子設計具有所需性質(zhì)的****物。我們的策略是整合兩個深度神經(jīng)網(wǎng)絡——生成網(wǎng)絡和預測網(wǎng)絡，它們是分開訓練的，但會進行聯(lián)合部署，加上額外的強化學習組件，可用于生成全新的具有生物活性的化學結構。我們已經(jīng)在概念驗證研究中部署了這一策略（稱為 ReLeaSE，即 Reinforcement Learning for Structure Evolution/用于結構演化的強化學習），用于設計傾向于具有特定范圍的物理性質(zhì)（比如熔點和疏水性）的化合物的化學庫，以及用于開發(fā)能選擇性地針對特定目標（比如激酶抑制劑）的全新化合物。我將討論 ReLeaSE 技術的近期進展，還將介紹將 ReLeaSE 與性質(zhì)過濾器和機器人化學相結合，以加速具有所需性能的新型化學實體的實際設計和發(fā)現(xiàn)。最后，我會以生物醫(yī)學研究中 AI 方法的應用所具有的挑戰(zhàn)和機遇作結。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。