通用蛋白質(zhì)設(shè)計新方法，谷歌研究團隊：具有分層功能的從頭蛋白質(zhì)設(shè)計的條件生成建模

發(fā)布人：機器之心時間：2022-07-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

蛋白質(zhì)設(shè)計對于醫(yī)學(xué)和生物技術(shù)應(yīng)用變得越來越重要。由于蛋白質(zhì)形成的復(fù)雜機制，新蛋白質(zhì)的產(chǎn)生需要繁瑣且耗時的計算或?qū)嶒瀰f(xié)議。同時，機器學(xué)習(xí)通過利用大量可用數(shù)據(jù)來解決復(fù)雜問題，最近在生成建模領(lǐng)域有了很大的改進。然而，生成模型主要應(yīng)用于蛋白質(zhì)設(shè)計的特定子問題。

谷歌的研究人員解決了以分層基因本體的功能標簽為條件的通用蛋白質(zhì)設(shè)計問題。由于缺少在該領(lǐng)域評估生成模型的規(guī)范方法，他們設(shè)計了一個評估方案，其中包含幾個生物學(xué)和統(tǒng)計學(xué)啟發(fā)的指標。然后，該團隊開發(fā)了條件生成對抗網(wǎng)絡(luò) ProteoGAN，并表明它在蛋白質(zhì)序列生成方面優(yōu)于幾個經(jīng)典和最近的深度學(xué)習(xí)基線。研究人員估計，功能條件模型可以通過組合標簽來生成具有新功能的蛋白質(zhì)，并為這一研究方向邁出第一步。該研究以「Conditional generative modeling for de novo protein design with hierarchical functions」為題，于 2022 年 7 月 1 日刊載在《Bioinformatics》。設(shè)計具有目標生物功能的新蛋白質(zhì)是生物技術(shù)中的一項常見任務(wù)，并且在合成生物學(xué)和****物研究（例如****物發(fā)現(xiàn)）中具有廣泛的應(yīng)用。這項任務(wù)具有挑戰(zhàn)性，因為蛋白質(zhì)的序列-結(jié)構(gòu)-功能關(guān)系極其復(fù)雜，尚未完全了解。因此，蛋白質(zhì)設(shè)計主要通過試錯法完成，例如定向進化，它依賴于已知蛋白質(zhì)的一些隨機突變和選擇壓力來探索相關(guān)蛋白質(zhì)的空間。這個過程既費時又費錢，而且通常只探索一小部分序列空間。同時，表征蛋白質(zhì)及其功能的數(shù)據(jù)很容易獲得，并為機器學(xué)習(xí)在蛋白質(zhì)序列設(shè)計中的應(yīng)用提供了有希望的機會。最近提出了多種生成模型來設(shè)計用于不同任務(wù)的蛋白質(zhì)，例如開發(fā)新療法、酶、納米抗體序列或?qū)е驴股啬?***性的蛋白質(zhì)。這些模型通常專注于蛋白質(zhì)設(shè)計的子任務(wù)，因此僅限于給定的應(yīng)用，通常甚至僅限于特定的蛋白質(zhì)家族。這需要對一項新任務(wù)進行重新訓(xùn)練，這限制了模型可以從中學(xué)習(xí)的序列的多樣性和數(shù)量。在其他領(lǐng)域，例如密切相關(guān)的自然語言生成，人們可以觀察到通用模型的趨勢，然后在各種上下文中使用這些模型。谷歌團隊的研究人員假設(shè)，同樣在蛋白質(zhì)設(shè)計中，一刀切的模型可以學(xué)習(xí)不同蛋白質(zhì)類別的共同基本原理，從而提高生成序列的質(zhì)量。更進一步，它甚至可以通過結(jié)合它在不同蛋白質(zhì)家族中學(xué)到的功能的不同方面來創(chuàng)造不僅新的序列，而且還可以創(chuàng)造新的功能。因此，該團隊開發(fā)了 ProteoGAN，這是一種用于條件蛋白質(zhì)設(shè)計的通用生成模型，基于分子功能基因本體論（the Molecular Function Gene Ontology，GO），一種描述蛋白質(zhì)功能方面的標簽層次結(jié)構(gòu)。這些功能從結(jié)合特異性試劑到轉(zhuǎn)運蛋白或傳感器活性、生化反應(yīng)催化等等不一而足。此外，分層組織中編碼的信息可能有助于對性能進行建模。他們的模型基于流行的生成對抗網(wǎng)絡(luò)（GAN）框架。研究人員通過提出一種條件機制來擴展框架，將蛋白質(zhì)功能的多標簽層次信息納入生成過程。然而，開發(fā)這樣的生成模型可能具有挑戰(zhàn)性，尤其是因為缺乏針對問題的評估。評估指標需要評估生成的樣本是否有效（即現(xiàn)實性和功能性），這本身就是一個難題，還需要快速計算大量樣本。生成模型的評估仍在進行中，特別是在蛋白質(zhì)設(shè)計領(lǐng)域。雖然生成序列的金標準驗證意味著在實驗室中合成蛋白質(zhì)，但缺乏計算機評估使得難以有效地比較蛋白質(zhì)序列設(shè)計的方法。因此，該團隊基于最大平均差異 (MMD) 統(tǒng)計量為生成蛋白質(zhì)設(shè)計構(gòu)建了一系列評估指標，以測量生成序列與真實蛋白質(zhì)的分布相似性和條件一致性。同時，進一步提出了解釋序列多樣性的措施。蛋白質(zhì)設(shè)計的相關(guān)生成模型引導(dǎo)和條件蛋白質(zhì)生成模型機器學(xué)習(xí)模型和最近的深度生成模型已被用于設(shè)計計算機生物序列，例如 RNA、DNA 或蛋白質(zhì)序列，通常旨在創(chuàng)建具有所需特性的序列。實現(xiàn)這一目標有兩種主要策略，一種是有指導(dǎo)的，另一種是有條件的。引導(dǎo)式方法使用預(yù)測器（也稱為預(yù)言機）通過迭代的訓(xùn)練-生成-預(yù)測步驟來引導(dǎo)設(shè)計朝著目標屬性發(fā)展。然而，在具有多個功能標簽的情況下，缺乏用于蛋白質(zhì)功能的高度準確和快速的多標簽預(yù)測器會損害功能性蛋白質(zhì)生成中的引導(dǎo)生成技術(shù)。另一方面，條件方法將功能信息集成到生成機制本身中，從而無需預(yù)測器。例如，2020 年 Madani 團隊開發(fā)了 ProGen，這是一種條件轉(zhuǎn)換器，可以控制生成大量功能性蛋白質(zhì)，但對序列上下文的需求可能會受到實驗限制，并且與從頭設(shè)計不兼容。2019 年 Ingraham 團隊提出了一種基于圖的條件生成模型，該模型依賴于結(jié)構(gòu)信息，而這種信息很少可用。2018 年 Das 團隊和 Greener 團隊訓(xùn)練條件變分自動編碼器（CVAE）以生成特定蛋白質(zhì)，例如金屬蛋白。2020 年 Karimi 團隊使用引導(dǎo)條件 Wasserstein-GAN 生成具有新折疊的蛋白質(zhì)。所有這些模型要么只關(guān)注蛋白質(zhì)設(shè)計的子任務(wù)，要么依賴于上下文信息，例如 3D 結(jié)構(gòu)或模板序列片段。而谷歌團隊所提出的 ProteoGAN，是一種用于蛋白質(zhì)設(shè)計的通用模型，該模型只需要指定生成所需的功能特性。生成模型的評估迄今為止，對于評估（條件）生成模型輸出的質(zhì)量、多樣性和條件一致性的最佳評估措施，還沒有明確的共識。大多數(shù)在計算機視覺中脫穎而出的指標，例如初始分數(shù)、Frechet 初始距離（FID）或 GAN 訓(xùn)練和 GAN 測試，都依賴于外部的、特定于領(lǐng)域的預(yù)測器。對于功能性蛋白質(zhì)設(shè)計，這樣的預(yù)測器在評估和訓(xùn)練神經(jīng)網(wǎng)絡(luò)時既不夠好也不夠快，無法完全依賴它們的預(yù)測。功能注釋的關(guān)鍵評估 (CAFA) 挑戰(zhàn)報告了當(dāng)前最佳模型（NetGO），其 Fmax 得分為 0.63，其預(yù)測速度約為每小時 1000 個序列。相反，域無關(guān)對偶間隙可以在訓(xùn)練和測試時計算，并且已被證明與 FID 有很好的相關(guān)性。在自然語言建模中，困惑度是一種常見的評估指標，與模型下測試集的概率有關(guān)。然而，這需要訪問在某些模型中不可用的可能性，例如 GAN，并且并不總是樣本質(zhì)量的良好指標。另一種方法測量可以從不完整的序列中恢復(fù)多少野生型殘基，然而，這與從頭蛋白質(zhì)設(shè)計的想法背道而馳。盡管研究界對蛋白質(zhì)生成模型的興趣日益濃厚，但還沒有明確的指標可以作為比較它們的可靠工具。討論指標的元評估：Spectrum MMD 是蛋白質(zhì)設(shè)計的有效指標不同的嵌入捕獲原始數(shù)據(jù)的不同方面。該團隊感興趣的是相對簡單的 Spectrum 內(nèi)核嵌入是否足以評估分布相似性和條件一致性，因此將其與三個生物學(xué)基礎(chǔ)的嵌入進行了比較：ProFET，主要與單個氨基酸或序列基序的生物物理特性相關(guān)的序列特征的手工選擇，UniRep，基于 LSTM 的學(xué)習(xí)嵌入和 ESM，基于 Transformer 的學(xué)習(xí)嵌入。后兩者被證明可以恢復(fù)蛋白質(zhì)的各個方面，包括結(jié)構(gòu)和功能特性以及進化背景。在這個比較中，ESM 嵌入可以說是最強大的，并且有望獲得最好的分數(shù)。值得注意的是，Spectrum 內(nèi)核嵌入也非常適合評估蛋白質(zhì)的結(jié)構(gòu)和功能方面，同時計算速度快幾個數(shù)量級，并且需要更少的計算資源。這使得它更適合神經(jīng)網(wǎng)絡(luò)和其他模型的評估或超參數(shù)優(yōu)化過程中對性能的要求。選擇 Spectrum 內(nèi)核嵌入的另一個原因是它的簡單性，因為它不對數(shù)據(jù)分布做任何假設(shè)：學(xué)習(xí)到的嵌入 UniRep 和 ESM 是在大量自然序列上訓(xùn)練的復(fù)雜非線性映射，雖然它們在自然分布數(shù)據(jù)上表現(xiàn)出色，但它們在生成序列上的行為仍然不可預(yù)測。超參數(shù)分析：ProteoGAN 的條件判別器對其性能最為關(guān)鍵研究人員測試了 cGAN 的各種超參數(shù)和架構(gòu)選擇，并在 fANOVA 框架（functional ANOVA framework）中對蛋白質(zhì)設(shè)計性能指標 MMD 和 MRR 進行了分析。為了為這些模型的后續(xù)工作提供信息，研究人員可以根據(jù)經(jīng)驗得出一些專門用于蛋白質(zhì)設(shè)計的 GAN 設(shè)計原則。首先，較小的架構(gòu)比具有四個以上隱藏層的網(wǎng)絡(luò)表現(xiàn)得更好。這個大小似乎足以對蛋白質(zhì)進行建模，盡管優(yōu)化當(dāng)然會對快速收斂（?。┠Ｐ彤a(chǎn)生選擇壓力。判別器達到最優(yōu)解，比通過較大的學(xué)習(xí)率經(jīng)常找到的局部最優(yōu)，更重要。研究人員觀察到分布相似性和條件一致性之間的權(quán)衡。這表現(xiàn)在增加 MRR 和降低 MMD 性能時，當(dāng)權(quán)衡更強的 AC 的訓(xùn)練損失項時，以及在不同的調(diào)節(jié)機制之間切換時。僅使用序列作為輸入，而不是將生物物理特征向量附加到序列嵌入中，可以獲得最佳性能。氨基酸同一性，而不是其特性，似乎對序列建模更為關(guān)鍵。研究人員發(fā)現(xiàn)，在比較捕獲標簽之間的層次關(guān)系的不同標簽嵌入時，標簽的簡單 one-hot 編碼顯示出最佳結(jié)果。對于模型，離散的 one-hot 標簽嵌入似乎比連續(xù)的 node2vec 嵌入或雙曲 Poincaré 嵌入更容易解釋。雖然這些嵌入包含更多信息，但 one-hot 編碼以更易于訪問的形式呈現(xiàn)它們。此外，對于神經(jīng)網(wǎng)絡(luò)需要首先學(xué)習(xí)的許多基本概念，雙曲空間需要特殊的算子。GAN 框架的其他流行擴展，例如輸入噪聲、標簽平滑或訓(xùn)練比率在上下文中沒有顯著影響模型性能?？偠灾?，一個具有調(diào)節(jié)機制且沒有進一步序列或標簽增強的小型模型效果最好。對架構(gòu)的進一步改進應(yīng)該集中在改進鑒別器上，因為影響它的超參數(shù)顯示出最大的影響。他們的最終模型 ProteoGAN 是優(yōu)化性能最好的模型，具有多個投影、一個 AC、沒有生物物理特征和標簽信息的單熱編碼。基線比較：ProteoGAN 優(yōu)于其他方法根據(jù)提出的分布相似性、條件一致性和多樣性指標，研究人員評估 ProteoGAN 的性能，并將其與幾個基線進行比較。通過對生物嵌入 ProFET、UniRep 和 ESM 以及嵌入的特征 KS 統(tǒng)計量的評估來鞏固結(jié)果。圖示：基于 Spectrum 內(nèi)核嵌入，使用 MMD、MRR 和多樣性指標評估 ProteoGAN 和各種基線。（來源：論文）結(jié)果表明，ProteoGAN 在所有指標和嵌入上都明顯優(yōu)于 HMM、n-gram 模型和 CVAE。這同樣適用于 OpL 版本，每個標簽訓(xùn)練一次。ProteoGAN 的性能也優(yōu)于最先進的 ProGen 模型。MMD 值相似，ProGen 可能會比 ProteoGAN 更好地擴展；然而，MRR 顯示了 ProteoGAN 在條件生成方面的明顯優(yōu)勢。適用性：ProteoGAN可以支持更大序列空間的蛋白質(zhì)篩選沒有濕實驗室驗證，很難證明生物學(xué)有效性，后續(xù)可能會進行驗證。研究人員承認，MMD 值仍然與陽性對照有顯著差異，并且相應(yīng)的 P 值在這方面尚無定論。因此，生成的序列很可能不是開箱即用的，而是需要一些實驗性調(diào)整，如定向進化。目前，ProteoGAN 的主要應(yīng)用：用比以前可能的距離已知序列空間更遠的候選者進行蛋白質(zhì)篩選的擴展，但比其他方法的相對新穎的候選者更可能具有功能。展望：調(diào)理可能使新蛋白質(zhì)功能的設(shè)計成為可能作為一個有趣的前景，該團隊提供了關(guān)于 OOD 生成的初步評估。以多個標簽為條件的模型通常旨在模擬給定標簽的蛋白質(zhì)的聯(lián)合分布，即執(zhí)行所有指定功能的蛋白質(zhì)。因此，研究人員假設(shè)條件機制可用于將以前不相關(guān)的功能標記組合成一種蛋白質(zhì)，這將能夠設(shè)計出具有以前看不見的功能的全新類型的蛋白質(zhì)。研究人員強調(diào)這個目標沒有明確地建立在條件機制中，因此它不適合優(yōu)化沖突屬性。但是，正交屬性的組合可能是允許的。雖然同樣在這里，生物實施是不可避免的來證明這一概念，但研究人員可以報告 ProteoGAN 和 CVAE 在五個保留標簽組合上顯示出有希望的 Top-X 精度。這一概念的進一步發(fā)展將為生物技術(shù)提供新的工具。

圖示：具有 OOD 功能的模型的頻譜嵌入 top10 準確度。（來源：論文）

代碼和數(shù)據(jù)：https://github.com/timkucera/proteogan論文鏈接：https://academic.oup.com/bioinformatics/article/38/13/3454/6593486?login=true

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

通用蛋白質(zhì)設(shè)計新方法，谷歌研究團隊：具有分層功能的從頭蛋白質(zhì)設(shè)計的條件生成建模

相關(guān)推薦

技術(shù)專區(qū)