国产无码内涵专区,亚洲欧美一级夜夜爽三级片

數(shù)學(xué)與前沿交叉

科研進(jìn)展

科研進(jìn)展

科學(xué)家利用“數(shù)據(jù)+知識(shí)+AI”實(shí)現(xiàn)新靶標(biāo)藥物虛擬篩選

日期： 2024-06-18

| 來(lái)源： 【字號(hào)：大中小】

6月6日，中國(guó)科學(xué)院上海藥物研究所鄭明月課題組在《自然-機(jī)器智能》（Nature Machine Intelligence）上發(fā)表了題為Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling的研究論文。該團(tuán)隊(duì)利用等變圖神經(jīng)網(wǎng)絡(luò)來(lái)整合蛋白質(zhì)-配體相互作用相關(guān)的物理先驗(yàn)知識(shí)，并使用多種數(shù)據(jù)增強(qiáng)、數(shù)據(jù)去冗余策略來(lái)避免模型過(guò)擬合潛在的數(shù)據(jù)分布偏差，構(gòu)建了通用蛋白質(zhì)-配體相互作用評(píng)分方法——EquiScore。在藥物虛擬篩選場(chǎng)景和先導(dǎo)化合物優(yōu)化場(chǎng)景中，EquiScore對(duì)訓(xùn)練未見(jiàn)的新靶標(biāo)表現(xiàn)出良好的泛化性能。此外，EquiScore的可解釋性分析為基于結(jié)構(gòu)的藥物設(shè)計(jì)提供了有價(jià)值的線(xiàn)索。?

精準(zhǔn)評(píng)估蛋白質(zhì)-配體相互作用對(duì)藥物發(fā)現(xiàn)至關(guān)重要。然而，開(kāi)發(fā)可靠的評(píng)估方法是學(xué)術(shù)界和工業(yè)界的挑戰(zhàn)。近年來(lái)，人工智能技術(shù)在這一領(lǐng)域已取得進(jìn)展。以AlphaFold為代表的深度學(xué)習(xí)方法在蛋白質(zhì)三維結(jié)構(gòu)、蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)方面表現(xiàn)優(yōu)異。然而，在新靶標(biāo)的藥物虛擬篩選場(chǎng)景中，高精度的活性預(yù)測(cè)評(píng)分方法仍然匱乏。研究表明，深度學(xué)習(xí)模型傾向?qū)W習(xí)數(shù)據(jù)中的分布偏差，對(duì)分布內(nèi)的數(shù)據(jù)可以給出較好的性能指標(biāo)。而在實(shí)際應(yīng)用中，尤其面對(duì)訓(xùn)練集未見(jiàn)的新靶標(biāo)和化學(xué)多樣性空間，深度學(xué)習(xí)模型卻無(wú)法展現(xiàn)出良好的泛化效果。

該研究從兩方面來(lái)提高深度學(xué)習(xí)評(píng)分函數(shù)對(duì)新蛋白的預(yù)測(cè)能力?？蒲腥藛T收集更多的陽(yáng)性樣本，并使用重對(duì)接來(lái)生成更多樣的陽(yáng)性樣本。同時(shí)，該研究使用交叉蛋白對(duì)接、分子生成模型來(lái)生成更多具有欺騙性和多樣性的誘餌分子，以減少構(gòu)建訓(xùn)練數(shù)據(jù)集時(shí)可能出現(xiàn)的類(lèi)似物偏差、數(shù)據(jù)分布偏差及人工富集偏差。該團(tuán)隊(duì)提出了異質(zhì)圖構(gòu)建流程，可以通過(guò)引入新的節(jié)點(diǎn)和邊來(lái)整合分子間相互作用的物理先驗(yàn)信息。該團(tuán)隊(duì)提出了信息感知注意力機(jī)制，用于整合不同信息中的相互作用。這些信息包括等變幾何信息、化學(xué)結(jié)構(gòu)信息、經(jīng)驗(yàn)相互作用信息。該研究通過(guò)使用新構(gòu)建的數(shù)據(jù)集和等變異質(zhì)圖網(wǎng)絡(luò)來(lái)訓(xùn)練最終的評(píng)分模型EquiScore。

在訓(xùn)練集中未見(jiàn)過(guò)的蛋白質(zhì)上的虛擬篩選能力能夠更好地反映評(píng)分方法在實(shí)際應(yīng)用中的泛化性能。為了進(jìn)行充分比較，科研人員選擇了21種不同的評(píng)分方法作為基準(zhǔn)。近來(lái)報(bào)道的所有方法均是基于PDBbind數(shù)據(jù)集訓(xùn)練得到的，而該數(shù)據(jù)集與外部測(cè)試集具有高度的“軟重疊”，即很多蛋白均是在訓(xùn)練過(guò)程中模型已見(jiàn)過(guò)的。為了進(jìn)一步檢查這種數(shù)據(jù)泄漏是否導(dǎo)致性能高估，該研究將外部測(cè)試集涉及“軟重疊”的數(shù)據(jù)進(jìn)行去重，并對(duì)所有方法的結(jié)果進(jìn)行重新評(píng)估。DEKOIS2.0測(cè)試集上的分析結(jié)果顯示，EquiScore的排序能力和富集能力均位于第一位或者第二位。當(dāng)只考慮訓(xùn)練過(guò)程中未見(jiàn)過(guò)的蛋白時(shí)，EquiScore在所有結(jié)果上均位于第一位。上述研究表明，在嚴(yán)格的測(cè)試下，EquiScore的綜合排序能力超過(guò)了現(xiàn)有方法。此外，EquiScore對(duì)新蛋白的富集能力超過(guò)了傳統(tǒng)評(píng)分方法和深度學(xué)習(xí)方法。

進(jìn)一步，科研人員在外部的先導(dǎo)化合物優(yōu)化數(shù)據(jù)集上比較了EquiScore與其他方法對(duì)結(jié)構(gòu)類(lèi)似物的活性排序能力；使用不同的對(duì)接方法生成蛋白-配體復(fù)合物結(jié)合構(gòu)象，評(píng)價(jià)了EquiScore作為評(píng)分方法的魯棒性。此外，研究人員分析了模型的可解釋性。

研究工作得到國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)會(huì)員項(xiàng)目、上海市科技重大專(zhuān)項(xiàng)、上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊(duì)聯(lián)合研究項(xiàng)目的支持。

論文鏈接

EquiScore架構(gòu)圖

附件：