科學家設計出基于圖表示學習和蛋白質語言模型的深度生成算法
| 來源: 【字號:大 中 小】
近日,中國科學技術大學認知智能全國重點實驗室教授劉淇指導的博士研究生張載熙,聯(lián)合美國哈佛大學醫(yī)學院教授Marinka Zitnik課題組,設計了基于圖表示學習和蛋白質語言模型的深度生成算法PocketGen,生成了與小分子結合的蛋白質口袋序列和空間結構。實驗驗證顯示,PocketGen在生成成功率和效率方面均超過傳統(tǒng)方法。相關研究成果以Efficient Generation of Protein Pockets with PocketGen為題,發(fā)表在《自然-機器智能》(Nature Machine Intelligence)上。
研發(fā)適用于科學發(fā)現(xiàn)任務的人工智能算法如功能蛋白質設計是重要的研究方向。在藥物發(fā)現(xiàn)和生物醫(yī)療領域,設計與小分子結合的功能蛋白質具有積極意義。而基于能量優(yōu)化和模板匹配的傳統(tǒng)方法計算速度慢、成功率低?;谏疃葘W習的模型存在分子-蛋白質復雜相互作用建模難、序列-結構依賴關系學習難等問題。因此,亟待發(fā)展高效、高成功率且能夠準確反映物理化學規(guī)律的蛋白質口袋生成算法。
該團隊在前期蛋白質口袋生成工作FAIR和PocketFlow的基礎上,研發(fā)出PocketGen。PocketGen可以基于蛋白質框架和結合小分子生成蛋白質口袋序列和結構。PocketGen主要由雙層圖Transformer編碼器和蛋白質預訓練語言模型組成。受蛋白質固有的層級結構啟發(fā),雙層圖Transformer編碼器包括氨基酸層級編碼器和原子層級編碼器,學習不同細粒度的相互作用信息,更新氨基酸/原子表示和坐標。在蛋白質預訓練語言模型中,PocketGen高效微調(diào)ESM2模型,輔助氨基酸序列預測。具體方法為PocketGen固定大部分模型層不變,僅微調(diào)部分適應層參數(shù),計算序列-結構信息交叉注意力,增強序列-結構一致性。實驗顯示,PocketGen模型親和力和結構合理性等指標超過傳統(tǒng)方法,在計算效率方面亦有大幅提高。
進一步,該研究在芬太尼和艾必克等小分子結合蛋白質口袋設計任務中進行驗證,并與生成模型RFDiffusion、RFDiffusionAA等比較,驗證了PocketGen的有效性。同時,研究將PocketGen產(chǎn)生的注意力矩陣與基于第一性原理和力場模擬分析軟件得到的結果進行對比展示,發(fā)現(xiàn)基于深度學習的PocketGen具有較好可解釋性。
上述成果推進了深度生成模型用于功能蛋白質設計,為進一步剖析蛋白質設計規(guī)律并開展生物實驗驗證奠定了基礎,展現(xiàn)了人工智能方法在解決藥物研發(fā)和生物工程領域重要科學問題方面的優(yōu)勢。
研究工作得到國家自然科學基金等的支持。
(a)利用PocketGen進行蛋白質序列-結構共同設計;(b)雙層圖Transformer編碼器;(c)蛋白質預訓練語言模型用于序列預測及高效微調(diào)技術
左側為薛定諤軟件分析的蛋白質-小分子相互作用關系圖;右側是PocketGen兩個注意力矩陣頭的熱圖,與左側相互關系成功對應。