为什么需要超⼤规模虚拟筛选?
虚拟筛选是否能成功获得活性化合物与化合物库的规模密切相关。更⼤规模的化合物库提供更加多样的化学结构,更有可能包含与
给定靶标有亲合性的化合物。
上海陶术为客⼾实施虚拟筛选提供了三种化合物库:
60 亿REAL Database |
4800 万REAL Diversity Set |
1900 万TOPSCIENCEDatabase |
可快速成; 成本低; 合成成功率⾼。 |
过滤除去 PAINS 和潜在毒性化合物,并挑选符合五规则和 Veber 标准的类药性强的化合物组成。 |
类药性强,约 90% 可以直接购买样品,是快速获得活性苗头化合物的卓越选择。 |
然而,经典的基于分子对接方法的虚拟筛选需要消耗较多的计算资源,在常规硬件平台上对如此巨大的化合物库执行虚拟筛选不切实
际。真正实现超大规模虚拟筛选需要革命性的新方法。
PLANET 模型介绍
复旦⼤学药学院王任小研究员( 兼任上海陶术 CTO )团队开发了基于图神经网络的 PLANET 深度学习模型。PLANET 模型采用靶
蛋⽩结合口袋的三维结构以及配体分子的⼆维结构作为输入即可预测给定配体分子的靶蛋白亲和性,无需执行分子对接中耗时的
构象采样过程,因此可以大大加速虚拟筛选。在 LIT-PCBA 等标准测试集上获得的结果显示:PLANET方法在虚拟筛选任务中的准确
率与分子对接方法GLIDE 相当,但是完成任务的速度比 GLIDE 快 1000 倍以上!
针对陶术化合物库的虚拟筛选技术⽅案
结合PLANET 模型的优势,上海陶术 CADD 团队在虚拟筛选流程中采用PLANET 先进行初步筛选,然后再对排名靠前的1~5% 化合物采⽤传统分子对接方法进行复筛。这种技术流程一方面大幅提高了虚拟筛选能够处理的化合物库规模,另一方面,也能保持预测精度,同时产生客户关心的化合物与靶标蛋白的具体作用模式。
PLANET 执⾏超⼤规模虚拟筛选的验证案例
【注】在该验证中,选取在 ChEMBL 数据库中收录的在各靶点上活性好于 10 μM 的化合物作为阳性化合物,考察使⽤ PLANET 对 TOPSCIENCE Database 化合物库执行虚拟筛选的富集因⼦( Enhancement Factor )。
结果显⽰:PLANET 面对不同来源、不同类型的靶标,均能以较高的成功率筛选出活性化合物,充分展现出了其作为超大规模虚拟筛选实用工具的价值。