科學(xué)家利用“數(shù)據(jù)+知識(shí)+AI”實(shí)現(xiàn)新靶標(biāo)藥物虛擬篩選
| 來(lái)源: 【字號(hào):大 中 小】
6月6日,中國(guó)科學(xué)院上海藥物研究所鄭明月課題組在《自然-機(jī)器智能》(Nature Machine Intelligence)上發(fā)表了題為Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling的研究論文。該團(tuán)隊(duì)利用等變圖神經(jīng)網(wǎng)絡(luò)來(lái)整合蛋白質(zhì)-配體相互作用相關(guān)的物理先驗(yàn)知識(shí),并使用多種數(shù)據(jù)增強(qiáng)、數(shù)據(jù)去冗余策略來(lái)避免模型過(guò)擬合潛在的數(shù)據(jù)分布偏差,構(gòu)建了通用蛋白質(zhì)-配體相互作用評(píng)分方法——EquiScore。在藥物虛擬篩選場(chǎng)景和先導(dǎo)化合物優(yōu)化場(chǎng)景中,EquiScore對(duì)訓(xùn)練未見(jiàn)的新靶標(biāo)表現(xiàn)出良好的泛化性能。此外,EquiScore的可解釋性分析為基于結(jié)構(gòu)的藥物設(shè)計(jì)提供了有價(jià)值的線(xiàn)索。?
精準(zhǔn)評(píng)估蛋白質(zhì)-配體相互作用對(duì)藥物發(fā)現(xiàn)至關(guān)重要。然而,開(kāi)發(fā)可靠的評(píng)估方法是學(xué)術(shù)界和工業(yè)界的挑戰(zhàn)。近年來(lái),人工智能技術(shù)在這一領(lǐng)域已取得進(jìn)展。以AlphaFold為代表的深度學(xué)習(xí)方法在蛋白質(zhì)三維結(jié)構(gòu)、蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)方面表現(xiàn)優(yōu)異。然而,在新靶標(biāo)的藥物虛擬篩選場(chǎng)景中,高精度的活性預(yù)測(cè)評(píng)分方法仍然匱乏。研究表明,深度學(xué)習(xí)模型傾向?qū)W習(xí)數(shù)據(jù)中的分布偏差,對(duì)分布內(nèi)的數(shù)據(jù)可以給出較好的性能指標(biāo)。而在實(shí)際應(yīng)用中,尤其面對(duì)訓(xùn)練集未見(jiàn)的新靶標(biāo)和化學(xué)多樣性空間,深度學(xué)習(xí)模型卻無(wú)法展現(xiàn)出良好的泛化效果。
該研究從兩方面來(lái)提高深度學(xué)習(xí)評(píng)分函數(shù)對(duì)新蛋白的預(yù)測(cè)能力??蒲腥藛T收集更多的陽(yáng)性樣本,并使用重對(duì)接來(lái)生成更多樣的陽(yáng)性樣本。同時(shí),該研究使用交叉蛋白對(duì)接、分子生成模型來(lái)生成更多具有欺騙性和多樣性的誘餌分子,以減少構(gòu)建訓(xùn)練數(shù)據(jù)集時(shí)可能出現(xiàn)的類(lèi)似物偏差、數(shù)據(jù)分布偏差及人工富集偏差。該團(tuán)隊(duì)提出了異質(zhì)圖構(gòu)建流程,可以通過(guò)引入新的節(jié)點(diǎn)和邊來(lái)整合分子間相互作用的物理先驗(yàn)信息。該團(tuán)隊(duì)提出了信息感知注意力機(jī)制,用于整合不同信息中的相互作用。這些信息包括等變幾何信息、化學(xué)結(jié)構(gòu)信息、經(jīng)驗(yàn)相互作用信息。該研究通過(guò)使用新構(gòu)建的數(shù)據(jù)集和等變異質(zhì)圖網(wǎng)絡(luò)來(lái)訓(xùn)練最終的評(píng)分模型EquiScore。
在訓(xùn)練集中未見(jiàn)過(guò)的蛋白質(zhì)上的虛擬篩選能力能夠更好地反映評(píng)分方法在實(shí)際應(yīng)用中的泛化性能。為了進(jìn)行充分比較,科研人員選擇了21種不同的評(píng)分方法作為基準(zhǔn)。近來(lái)報(bào)道的所有方法均是基于PDBbind數(shù)據(jù)集訓(xùn)練得到的,而該數(shù)據(jù)集與外部測(cè)試集具有高度的“軟重疊”,即很多蛋白均是在訓(xùn)練過(guò)程中模型已見(jiàn)過(guò)的。為了進(jìn)一步檢查這種數(shù)據(jù)泄漏是否導(dǎo)致性能高估,該研究將外部測(cè)試集涉及“軟重疊”的數(shù)據(jù)進(jìn)行去重,并對(duì)所有方法的結(jié)果進(jìn)行重新評(píng)估。DEKOIS2.0測(cè)試集上的分析結(jié)果顯示,EquiScore的排序能力和富集能力均位于第一位或者第二位。當(dāng)只考慮訓(xùn)練過(guò)程中未見(jiàn)過(guò)的蛋白時(shí),EquiScore在所有結(jié)果上均位于第一位。上述研究表明,在嚴(yán)格的測(cè)試下,EquiScore的綜合排序能力超過(guò)了現(xiàn)有方法。此外,EquiScore對(duì)新蛋白的富集能力超過(guò)了傳統(tǒng)評(píng)分方法和深度學(xué)習(xí)方法。
進(jìn)一步,科研人員在外部的先導(dǎo)化合物優(yōu)化數(shù)據(jù)集上比較了EquiScore與其他方法對(duì)結(jié)構(gòu)類(lèi)似物的活性排序能力;使用不同的對(duì)接方法生成蛋白-配體復(fù)合物結(jié)合構(gòu)象,評(píng)價(jià)了EquiScore作為評(píng)分方法的魯棒性。此外,研究人員分析了模型的可解釋性。
研究工作得到國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)會(huì)員項(xiàng)目、上海市科技重大專(zhuān)項(xiàng)、上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊(duì)聯(lián)合研究項(xiàng)目的支持。
EquiScore架構(gòu)圖
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有
京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000016