



Discovery Studio



近日,来自斯坦福大学的几位科学家在生物化学年度回顾期刊(Annual ReviewOfBiochemistry)发表了一篇名为The Art and Science of Molecular Docking分子对接综述,这篇综述从分子对接的理论出发,讨论了分子对接在研究配体的生物物理学上的作用、先导化合物优化、虚拟筛选等实际应用及局限,还包括了同分子动力学及机器学习联用的未来展望,本次推送将为大家翻译解读这篇文献。



一
摘要
分子对接已成为结构生物学家和药物化学家常用工具包的重要组成部分。只要给定化合物和分子靶标(例如蛋白质)的三维结构,就可以将化合物拟合到靶标的结合口袋中,预测化合物的结合结构和结合能。分子对接可以被用来筛选大型虚拟化合物库来发现给定靶标的全新配体。分子对接还可以为基于结构的配体优化或研究配体的作用机制提供有用的起点。计算方法的进步,包括基于物理和机器学习的方法,以及互补的实验技术,正在使对接成为一种更强大的工具。我们回顾了分子对接的工作原理以及它如何推动药物发现和生物学研究,还描述了其当前的局限性以及为克服这些局限性所做的持续努力。
【关键词】受体-配体对接,药物发现,生物物理学,虚拟筛选,先导优化

二
引言
利用计算机评估分子与靶位点结合的适应性来设计新药的愿景激励了一代又一代科学家进行深入研究。这一梦想至少在某种程度上已经实现。已经开发出多种广泛使用的软件包,用于将化学化合物“对接”到生物靶标结构中,预测每个化合物的结合紧密度以及结合时的几何形态。如今,这些分子对接方法在生物研究、药物发现和其他领域得到了广泛应用。它们不仅用于发现与蛋白质和核酸结合的新型分子,还用于其他多种目的。例如,对接可以帮助揭示配体(即已知与特定生物靶标结合的分子)影响靶标功能的分子机制。对接还经常促进更有效的配体优化,这是药物发现中的关键部分,其中从配体开始,寻找具有更理想属性的相关化合物——不仅是更强的结合力,还有提高的效力、降低的毒性和更少的副作用。在这篇综述中,我们提供了对接工作原理的高级描述。我们描述了对接特别有用的情形,并讨论了当前的局限性。我们提供了如何部署对接软件以及如何有效地将其与各种类型的实验(湿实验室)数据结合使用的实用指导。我们还总结了有望显著改进和扩展对接方法能力的研究方向。对接最常用于预测蛋白质靶标和小分子之间的相互作用——即大约有100个或更少原子的化合物,因此,我们本次综述主要集中在这种情况下。然而,我们也注意到,这些分子对接方法通常也用于其他大分子靶标,特别是核酸(RNA和DNA)。这些方法也常应用于对接较大的化合物,如短肽或大环化合物。对接还用于研究蛋白质-蛋白质相互作用,但实际考虑要求使用不同的对接方法。

三
分子对接的作用
【输入和输出Inputs and Outputs】
对接方法旨在估计化学化合物与生物靶标之间相互作用的两个属性(图1)。首先,对接预测化合物的结合姿态——即,化合物与靶标结合时最具能量优势的几何形态,由化合物相对于靶标的每个原子的三维(3D)坐标指定。其次,对接估计相关的结合能(或等效地,结合亲和力),它量化了化合物与靶标结合而不是留在周围溶剂中的程度。为此,对接方法要求用户提供至少两个输入:靶标的3D结构和化合物的(2D)化学结构。大多数对接软件包还要求用户指定一个大致的结合位点,通常通过在其中放置化合物的3D盒子来指定。这允许用户指定他们希望发现新配体的位点,或者提供有关特定配体可能结合位置的先验知识。对接方法的开发目标是,理想的预测结合姿态应与通过晶体学或冷冻电镜(cryo-EM)实验确定的相应结构相匹配,预测的结合能应重现结合测定的结果,如放射性配体置换。对接的准确性不如这些实验方法,但它要快得多、便宜得多,而且不需要物理合成每个考虑的化合物。重要的是,对接的结果取决于所使用的靶标结构的精确性。预测的结合姿态和结合能应被理解为所提供的特定靶标结构的结合姿态和结合能的估计。例如,如果用于对接的靶标结构处于活化状态,则预测的小分子和受体的结合能则可能和测定该小分子与受体非活性状态结合的实验结果无关(如mGluR)。

图1 分子对接的作用示意。给定蛋白质受体和目标化合物的结构,分子对接可预测结合姿态和相关的结合能。
【配体结合的生物物理学Biophysics of Ligand Binding】
要定量理解对接,需要了解分子系统的生物物理学,特别是势能、自由能、微观状态和宏观状态之间的关系。对分子对接及其应用更感兴趣的读者可以跳过本节。分子系统的微观状态指定了系统中每个原子的精确坐标。在体温或室温下,由于所有原子的热运动,分子系统在微观状态之间不断波动。根据玻尔兹曼(Boltzmann)方程,微观状态的势能U()与系统在任何时刻处于该微观状态的概率P()有关,方程如下:

其中T是温度,K是Boltzmann常数。
为了估计化合物与靶标结合的频率,必须考虑化合物与靶标结合的所有微观状态,并求和它们的概率,以确定系统在任何给定时间处于结合状态的总概率P(bound)。这样的一组微观状态集合称为宏观状态,其概率可以用来推导宏观状态的自由能G,这类似于微观状态的势能。例如,

通常最有用的是考虑结合自由能ΔG,它简单地是结合状态和未结合状态自由能之间的差值。

(未结合状态的自由能是假设化合物包含在固定体积的溶剂中计算的,这相当于它处于标准浓度。)
配体不断地在结合姿态之间波动,但通常大部分时间都花在一组非常相似的姿态(微观状态)上。因此,将这组姿态的代表视为配体的“结合姿态”是合理的。评分函数预测了假定姿态的配体结合自由能,假设给定的姿态代表了这组姿态的集合。为了最佳性能,评分函数不仅要考虑给定姿态的势能,还要考虑附近姿态的数量和势能(即熵和焓),以及配体在未结合状态下所采用的姿态集合。经验评分函数和基于机器学习的评分函数都是隐式地这样做的。基于分子动力学模拟的方法明确考虑了微观状态的集合。请注意,每种化合物都在某种程度上与每个靶标发生相互作用。因此,即使是非常弱结合的化合物,通常被称为非结合物,结合能也是一个有意义的量。

四
分子对接的工作原理
目前已经开发了一百多个用于分子对接的软件包,其中许多被广泛使用。在本节中,我们将回顾这些分子对接方法的共同特征以及各种设计决策背后的动机。
对接方法通常由两个组成部分构成:评分函数和采样程序(图2)。评分函数为化合物提供假设的结合姿态,并在假设该姿态正确的情况下估计化合物的结合能。采样过程搜索潜在姿态的空间,以发现评分函数分配最有利分数的姿态。得分最高的姿态就是预测和晶体结构最接近的姿态,这个姿态对应的分数是就是预测的结合能(图2)

图2 对接的工作原理。大多数对接方法可以分解为两个部分:评分函数和采样程序。评分函数估计假设给定结合姿态的结合能,采样程序搜索评分函数认为在能量上最有利的结合姿态。预测的结合姿态是预测结合能最低的结合能,化合物的估计结合能是该姿态的预测结合能。
【评分函数Scoring Functions】
评分函数以候选结合姿态为输入,并评估配体在该姿态下与靶标结合的能量优势。大多数对接包使用的是经验评分函数。在经验评分函数中,开发者指定了描述已知对决定结合能很重要的各种蛋白质-配体相互作用的项,这些项的参数被调整,以便评分函数能够重现试验测试结果。当然除了经验评分函数,也提出了一些其他类型的评分函数,如基于机器学习或分子动力学模拟的评分函数,这将在“挑战与进展”部分展开讨论,在本小节我们重点介绍基于经验的评分函数。
基于经验的评分函数通常是通过结合理论和实验数据开发的,大致步骤如下:首先第一步需要理解蛋白质-配体复合物中的关键相互作用(理解相互作用),包括氢键、疏水作用、静电相互作用、范德华力等;然后定义评分项,根据这些相互作用,定义评分函数的不同项,例如,可以为形成氢键的每个实例分配一个正值,为原子间的静电排斥分配一个负值;接着参数调整,使用已知结合亲和力的蛋白质-配体复合物的数据集来调整评分函数中各项的参数,这通常涉及到最小化实验结合亲和力与评分函数预测的亲和力之间的差异;通过统计分析方法,如线性回归或更复杂的机器学习方法,来确定评分项的权重和参数;使用交叉验证技术来测试评分函数的预测能力,这通常涉及将数据集分成训练集和测试集,然后在训练集上优化参数,在测试集上评估性能;根据评分函数在测试集上的表现进行调整和优化(优化和迭代),这个过程可能需要多次迭代,以确保评分函数的泛化能力和准确性;接着通过如表面等离子共振(SPR)或等温滴定量热分析(ITC)这些实验验证评分函数的预测结果;随着新的实验数据和计算方法的出现,评分函数可能需要定期更新和维护,以保持其准确性和相关性。
不同的经验评分函数包含的具体项不同,但大多数评分函数包括惩罚原子重叠和静电排斥的项,以及奖励静电吸引、有利的范德华相互作用和氢键的项。总体打分通常是通过对所有单独项求和来计算的。例如,氢键项将为候选结合姿态中存在的每个氢键增加奖励。此外,评分函数通常还包括仅配体的项,以考虑将配体限制在结合口袋中的熵惩罚(见”使用虚拟筛选发现新型配体”一节),以及配体采用候选结合姿态指定的形状时的焓惩罚(配体应变能)。每个项的功能形式通常受到其交互类型的基础物理的启发。然而,这些评分函数是经验性的,因为这些项通常包含常数因子,这些因子被拟合,以便评分函数与实验数据一致。具体来说,对评分函数进行调整以便最大程度提高它们对预测结合姿态、结合能或识别一组化合物中最佳结合分子的准确性。
【采样程序Sampling Procedures】
采样程序搜索各种候选的结合姿态,以找到由评分函数评估为最有利的那一个。具体来说,采样程序搜索以下自由度:
1. 配体相对于目标的总体位置和方向(即平移和旋转);
2. 配体本身的形状,这可能因单键周围的内部旋转等原因而有多种变化;
3. 可选地,目标结构的局部重排。
从概念层面上讲,我们可以认为采样程序会枚举所有可能的候选姿态,对每个姿态上的评分函数进行评估,然后返回获得最有利分数的姿态,如图2所示。然而,在实践中,大多数现代对接软件包使用评分函数帮助指导采样程序。例如,现代软件包使用马尔可夫链-蒙特卡洛(一种随机采样技术,用于从复杂的概率分布中抽取样本。马尔可夫链是一种随机过程,其中未来的状态转移只依赖于当前状态。将两者结合,形成马尔可夫链-蒙特卡洛方法,可以在高维空间中有效地采样,并且能够从任意分布中采样。在分子对接中,可以用来模拟分子的动态行为,通过随机改变分子的构象来搜索可能的结合模式。)使用近似评分函数的穷尽搜索(这种方法通常涉及对分子的所有可能构象进行评估,但使用一个简化的评分函数来快速筛选出潜在的结合模式。穷尽搜索意味着尝试每一种可能的构象组合,而近似评分函数则是一种计算成本较低的函数,能够在保持一定准确性的同时快速评估大量构象。这种方法适用于那些可以通过简化模型有效评估的系统,但可能在处理非常大的分子或复杂系统时计算成本较高。)或遗传算法(一种模拟自然选择过程的启发式搜索算法,用于解决优化和搜索问题。它通过模拟生物进化中的交叉、变异和选择机制来迭代地改进解决方案。在分子对接中,遗传算法可以用来生成和优化配体的构象,通过评估其与受体的相互作用来选择最佳的结合模式。遗传算法的优势在于其能够处理复杂的搜索空间,并且对于非线性和非凸问题特别有效。)等搜索算法。我们推荐读者阅读有关这些算法的更详细讨论。
通常,对接中使用的采样程序不模拟配体的实际结合路径。这样做将非常慢,特别是因为配体可能在最终稳定下来之前多次与受体结合和解离。相反,采样程序以一种非物理的方式穿过可能的结合姿态空间,以更快地发现全局最小值。
选择对接方法时一个重要的考虑是运行时间和搜索程序的彻底性之间的权衡。一些对接软件包专门设计为快速运行,以牺牲对个别配体的不那么彻底的采样为代价。这对于筛选大型化合物库至关重要,但当人们希望准确预测单个配体的姿态时,运行时间就不太是问题了。一些对接软件包允许用户调整采样的彻底性,从而调整运行时间。
【刚性与柔性受体对接Rigid Versus Flexible Receptor Docking】
尽管几乎所有对接软件包都考虑了正在对接的化合物的灵活性,但大多数不考虑受体的变形。这种策略通常被称为刚性受体对接,是一个主要的简化。配体结合通常会影响结合口袋的构象(形状),结合口袋的确切构象取决于哪种配体结合。不考虑目标灵活性可能会导致对接的不准确。
目前已经提出了多种柔性受体对接方法,这些方法通过搜索目标结合口袋的各种构象以及配体的姿态来考虑受体的灵活性。另一种策略是,称为集合对接(ensemble docking),列举一组受体构象——通常与多种不同配体结构的晶体结构——然后在每个独立的构象上运行刚性受体对接,并将结果合并。
柔性受体对接在两个方面引入了复杂性。首先,考虑蛋白质重排极大地增加了搜索空间,因为即使只考虑结合口袋中侧链的运动,蛋白质也有许多自由度。这使得柔性受体对接的速度比刚性受体对接慢了几个数量级。其次,允许蛋白质重排需要评分函数评估各种蛋白质构型的能效,这通常是具有挑战性的。因此,尽管在某些情况下柔性受体对接和集合对接很有用,但它们并不总是比刚性受体对接产生更准确的结果。

五
分子对接的应用
【配体优化Ligand Optimization】

图3 如何在配体优化中使用对接。通过对接预测的结合姿势可以以与使用实验确定的结构来指导配体优化的方式大致相同。在所示的所有案例中,熟练的化学家可以直观地使用预测的姿势,也可以作为更高级计算分析的起点,为配体优化提供信息。
通过对接预测的结合姿态可以被用来指导配体结合亲和力的优化以及其他配体特性的修改(见图3)。预测的结合姿态通常被用来指导药物化学家的直观分析。化学家可以使用预测的姿态来评估哪些化学添加、删除或替代可能使配体更贴合结合位点。更一般地说,在给定结合口袋的情况下,化学家可以评估配体的哪些部分可以被修改以实现各种其他设计目标。
除了优化结合亲和力外,对接还可以指导多种其他配体设计任务。例如,预测的姿态被用来识别化学修饰,以优化诸如溶解度或毒性等属性,同时不降低对目标的亲和力;在不破坏结合的情况下确定配体上可以添加化学或荧光标签的位置;将化合物连接起来创建二价配体(bivalent ligands),包括靶向两个受体的不同化合物,如PROTACs(蛋白质降解靶向嵌合体);以及设计选择性地与一组相关靶标的一个成员结合的配体(亚型选择性)。
除了直观分析外,还可以使用自动化计算方法来估计配体化学修饰后结合亲和力的变化。对接得到的结合能量可以用于此目的,但它们不是很准确。相反,对接预测的姿态通常用作其他方法的起点,这些方法可以提供更准确的相对结合能量预测,包括各种基于分子动力学模拟的方法(也就是MMPBSA/GBSA或FEP等方法,见 “挑战与进展”部分)。
【研究配体如何影响其目标的功能Investigating How a Ligand Impacts Its Target’s Function】
对接预测的结合姿态可以阐明配体影响靶标功能的分子机制,因此对接可以提供对靶标生物学的基本见解。在这种情况下,研究人员通常确定一种或多种引起靶标功能效应的配体,然后将这些配体对接到靶标上,然后评估配体的存在如何导致观察到的效应。例如,这种方法已被用来确定受体激活的结构基础。当已知受体蛋白的激动剂和拮抗剂配体时,它们对接的姿态差异通常突出了有助于激活的相互作用。同样,对接的姿态经常揭示受体如何识别其内源性配体以及这些配体如何影响受体功能。
对接还可以为分子动力学模拟提供起始姿态,以便更好地理解配体的变构效应。这是一种强大的组合,因为对接本身不能捕捉配体结合后目标其余部分可能发生的重排,而分子动力学模拟本身通常不能确定结合姿态(可以,但是需要微妙甚至毫秒级的模拟,有兴趣的可以阅读相关文献A1)。此外,通过分子动力学模拟获得的配体-靶标相互作用的动态视图可以提供超出任何静态结构所显现的信息。
【虚拟筛选发现新型配体Discovery of Novel Ligands Using Virtual Screening】
虚拟筛选已成为实验高通量筛选的强有力的竞争者,用于先导化合物的发现。在虚拟筛选中,一系列化合物被一一对接至目标受体结构,预测结合能量最有利的化合物被优先选择进行实验测试(见图4,这里的结合能量往往是评分函数)。重要的是,虚拟筛选中使用的化合物库只需要在计算机上表示,并不局限于已经合成的化合物(现在合成出来的化合物才多少,化学空间有1060个化合物)。

图4典型的虚拟筛选工作流程。首先,制备(a)靶标结构和(b)待筛选化合物库。(c)然后将每种化合物对接到目标上,并根据其预测的结合能对化合物进行排序。(d) 根据其化学结构对排名靠前的化合物进行聚类,(e) 从每个聚类中选择一种具有代表性的化合物,有时经过额外的目视过滤,进行实验测试。
这种策略已被证明成功地鉴定出了与已知配体在化学结构上有很大差异的配体。发现全新的配体可以帮助规避现有配体的一些问题,例如由于脱靶活性引起的副作用。此外,许多发现的配体对目标的功能有独特的影响,扩大了药物和化学探针的工具箱。虚拟筛选通常使用可以廉价获得的化合物库进行,而不需要定制合成。化合物由于合成难易程度也分三六九等,我们选择一些廉价化合物组成的库进行虚筛,这样可以允许团队购买和测试更多虚筛得到的化合物,从而减轻对接预测准确性的负担。如果一个团队能够测试100种化合物,命中率为5%甚至3%是可以接受的(一般而言,虚拟筛选的成功率在1%-5%这个区间,见“对接倾向于表现良好时”部分)。
按需制作库的最新进展大大扩展了易于购买的化学空间的规模,使虚拟筛选变得更加重要。按需制作库由供应商认为可以根据要求相对容易地合成的化合物组成,但这些化合物大多从未真正合成过。这种策略允许供应商以适度的价格提供庞大的化合物库——数十亿甚至数万亿种化合物,并且数量还在不断增长。
相较于实验性高通量筛选,虚拟筛选有两个主要的优势。首先,虚拟筛选可以考虑比高通量筛选多几个数量级的化合物。其次,在虚拟筛选中,团队只需要根据预测的计算结果来进行试验验证,而这通常只需要通过实验检测数十到数百种化合物,因此可以采用低通量实验检测,降低了时间成本和经费成本,达到了降本增效的目的。
虽然虚拟筛选所使用的软件和方法学各有不同,但是逻辑是大致一样的,晶型的虚拟筛选主要包括以下步骤:
1. 确认蛋白质受体的三维结构:该结构可通过PDB数据库、Modeler同源建模、AlphaFold等方法获取,然后通过添加氢原子、添加Gap、Loop等方式进行准备。同时也要选择相应的结合位点,结合位点可以通过晶体结构结合的配体确定,根据结构预测位点或根据文献手动选择,建模等方式预测得到的受体结构还可以根据对齐同类型的蛋白质以获取结合位点;
2. 化合物库的选择:通常选择从化合物供应商提供的结构文件,如BIOVIA SCD、Enamine、陶术等,因为这些化合物都是可购买的。也可以选择一些虚拟筛选库,如Zinc、PubChem、GDB等,那么预测出来的化合物有些可能就需要进行化学合成了。除了这些综合库外,也可以选择一个专向库,例如天然产物、海洋产物、中药、疾病类型活性化合物库等等,可以参考https://www.imatsoft.com/products_details/3.html。在某些情况下,了解可能对结合很重要的化学特征(例如,在结合袋中存在带负电荷的基团以补充带正电的基团)用于为文库选择提供信息,如富含卤素、吡啶等具有某些官能团或片段的库,如这些化合物也可以被过滤,以去除任何化学上与先前已知的结合剂相似的化合物。
3. 执行分子对接和根据评分函数排序:将每个候选化合物对接到目标受体上,并根据其预测的结合能(评分函数近似)对化合物进行排序。这个比较简单就不过多赘述了。
4. 化合物聚类:根据其化学结构对排名靠前的化合物进行聚类,并考虑每个聚簇的代表性成员,通常是具有最有利预测结合能的成员,用于实验测试。这样做是为了避免对许多接近的类似物进行实验测试,因为接近的类似物可能要么全部成功,要么全部失败。
5. 人眼观察(可选):大多数对接软件无法很好地捕获蛋白质-配体相互作用的某些特征,它通常有助于执行额外的视觉直观过滤。一般来说,有三类需要注意:(a)不太可能互变异构状态的化合物,例如存在未与金属连接的带负电荷的羟基;(b)不太可能的化合物,例如,含有可以作为氢键供体但不这样做的化学基团;(c)与已知结合剂形成非常不同的相互作用模式的化合物,例如缺乏已知对结合至关重要的盐桥。
6. 实验验证:采购选定的化合物并通过实验测试与靶标的结合。大多数虚拟筛选研究在主要实验测试中考虑了数十到数百种化合物。选择能够检测弱结合剂的实验性检测至关重要,因为最初的命中通常是弱结合剂。
7. 命中优化:通常通过对相关化合物的计算评估或传统的药物化学方法,对通过验证的初始命中进行优化以提高其亲和力,使用先导化合物优化等策略。
以上是基于结构的采用分子对接的虚拟筛选方法,同时如果靶标的某些配体已经已知,则基于配体的方法可以用作虚拟筛选对接的替代方案。粗略地说,这些方法根据化合物与已知配体的化学相似性对化合物进行排名。与基于配体的方法相比,基于对接的虚拟筛选通常可识别化学成分更多样化的结合剂,因此,当人们希望识别与先前已知配体有很大差异的化合物时,这种筛选特别有价值。
【其他应用Other Applications】
分子对接还可以用于寻找化合物可能作用的目标蛋白(称为反向对接或反向找靶)。反向找靶技术已经用于鉴定天然产物、代谢物和药物的靶标。相反,基于对接的虚拟筛选可用于鉴定可能结合感兴趣目标的内源性或饮食化合物。对接还可以辅助在解决晶体和特别是冷冻电镜结构时放置配体,即从原始实验数据到3D原子坐标的过程。在某些情况下,实验数据本身无法明确确定配体的姿态,因此选择一个既与原始实验数据一致又由对接评分看好的姿态。


分子对接何时表现良好
总体来说,当目标结构具有高分辨率且配体结合在所需的结合位点时,对接表现最佳。在这些情况下,结合位点的形状非常适合容纳配体,使得对接更容易定位和评分感兴趣的化合物。在目标结构中不含配体的结合位点进行对接更具挑战性。缺乏配体时,结合口袋常常塌陷,没有足够的空间供大多数配体适应。此外,像氢键供体这样的官能团可能没有定向以形成有利的配体相互作用。
【对接姿态预测可靠性如何When Is Binding Pose Prediction Reliable?】
特别是当晶体结构的配体与我们目标配体相似时,我们可以做出特别有信心的结合姿态预测。理论上,共享一个通用骨架的配体们在和结合口袋与受体结合时,它们的通用骨架会结合在相似的地方。因此,可以在PDB数据库中找那些具有相同或相似骨架配体的晶体结构,通过结构提取这些骨架的结合姿态来指导我们对接时目标配体骨架的位置,而目标配体其他独特部分的位置需要从头预测。大多数现代对接软件包支持在对接期间限制一个通用子结构。虽然这种策略通常相当有效,但这并不能保证成功:在某些情况下,相似配体的共享骨架采用不同的位置,特别是如果一个或两个配体都是弱结合剂。
在没有这种设置的情况下,不能只选择对接结果产生的一个结果来作为最准确的结合姿态。然而,大多数对接软件包可以输出一个最佳得分姿态的排名列表,这个列表通常包括了一个准确的结合姿态。因此,可以考虑与各种形式的实验数据的一致性,从这个列表中选择一个准确的结合姿态(见“结合实验数据”部分)。
使用计算模型预测蛋白质结构的结合姿态可能具有挑战性,即使有了像AlphaFold这样的高准确性结构预测方法[77,78]。与那些没有和配体结合的结构不同,这些模型通常没有塌陷的结合口袋,但通过预测得到蛋白质结构模型,它结合口袋中的微小不准确之处常常阻碍准确的结合姿态预测。在某些情况下,需要柔性受体对接才能采样正确的结合姿态。然而,很难对刚性或柔性受体对接何时可能给出更准确的结果做出非常明确的判断。一般来说,如果配体结合时结合口袋会发生大幅度变形,人们可能会倾向于使用柔性受体对接。这些情况包括对接到那些没有和配体结合的晶体结构的结合位点和配体偏好结合与结构中存在的配体不同的目标构象的情况。如果刚性受体对接提出的配体姿态都与关于该配体的实验数据不一致,也可能使用柔性受体对接。对于特定对接软件包的性能比较,我们推荐读者参考最近的基准研究。
【虚拟筛选何时有效When Does Virtual Screening Tend to be Effective?】
在大多数虚拟筛选中,少数得分最高的化合物会被实验测试,成功与否是通过这些化合物中确实和受体有结合来衡量的。为了取得成功,对接方法不需要为库中的所有结合剂分配有利的分数,但它必须至少将一些结合剂排在几乎所有非结合剂之上(阳性对照)。刚性受体对接在虚拟筛选中几乎总是被使用,不仅因为它比柔性受体对接更快,而且因为它具有更低的假阳性——也就是说,它不太可能为非结合剂分配有利的分数。柔性受体对接通常会产生更多的假阳性,因为考虑到的不同目标构象之间的相对能量优势存在不确定性。
成功的虚拟筛选要求能够识别并准备一个结构,该结构的靶点结合位点很好地形成以容纳配体。这最好通过使用一个在所需的结合位点上有配体结合的高分辨率晶体结构来实现。在这种情况下,当选择一百个左右的化合物进行实验测试时,虚拟筛选非常可能产生一个或多个新的结合剂。针对那些没配体的晶体结构和计算预测模型的筛选更具挑战性,但也有一些文章报告了成功案例。大多数成功的虚拟筛选活动针对的是深而封闭的结合口袋[53,61]。针对通常存在于蛋白质-蛋白质界面上的那些平坦的、暴露于溶剂的口袋的研究数量则要少得多,表明这更具挑战性。
虚拟筛选活动的成功通常以命中率来报告,即实验测试的化合物中实际结合目标的比例。可以将命中率表示为两个组成部分的乘积:(a) 从库中任意选择的化合物与目标结合的基准率,以及 (b) 对接程序准确区分真实结合剂和非结合剂并将命中率提高到基准率以上的程度。这第二个组成部分通常称为富集因子(命中率与基准率的比率),是虚拟筛选方法常用的性能指标。通过使用高质量的结构、采用准确的对接方法,并利用任何可用的实验数据(见“结合实验数据”部分),可以增加富集因子。虚拟筛选通常还可以从熟练的化学家对结果进行肉眼检查中受益,并对要实验测试的化合物列表进行筛选[49,89]。然而,当尝试针对不利的结合位点时,虚拟筛选通常仍然具有较低的(或零)命中率。对于深而封闭的结合口袋,给定高质量的结构,通常可以实现几个百分点的命中率——远高于随机选择的化合物所能达到的。
对接通常无法明确排除一种化合物与目标蛋白结合的可能性,因为结合口袋可能会以难以预料的方式重排。这是可以接受的,因为虚拟筛选的典型目标,但直接应用对接来鉴定不与靶标相关的其他蛋白质结合的选择性配体具有挑战性。同样,使用对接来鉴定仅与靶标的一种构象状态结合的配体也已被证明是具有挑战性的。
这里有一份虚拟筛选实践指南,推荐读者阅读。


结合试验数据
在大多数希望预测配体结合姿态或执行虚拟筛选的情况下,除了用于对接的靶标结构之外,还有一些关于靶标的实验数据是可用的。可以利用各种形式的实验数据来提高对接结果的准确性。这通常是通过执行对接的研究者直观地完成的,但也有一些特定情况下利用实验数据的自动化方法。继续开发有原则的、自动化的方法来利用实验数据是一个重要的未来工作领域。
如果可以获得与其他配体复合物中结合的靶标蛋白实验确定结构,那么这些结构可以用于结合姿态预测和虚拟筛选。其背后的理论是,大多数结合位点包含热点,这些热点与某些配体化学基团形成特别有利的相互作用,并且不同的配体结合到同一目标时经常与这些相同的热点相互作用。因此,当检查对接软件排名靠前的候选结合姿态时,有经验的用户通常会选择与实验确定的其他配体的姿态中看到的相互作用类似的结合姿态。同样,在从虚拟筛选中选择要实验检测的化合物时,可能会优先考虑那些能够形成与实验确定的其他配体的姿态中看到的相互作用类似的化合物。这些策略可以相当普遍地应用,因为许多不同的化学基团可以与靶标形成类似的相互作用。
即使在没有这些化合物结合的靶标蛋白结构可用的情况下,关于其他结合靶标的化合物的信息也可能是有用的。例如,可以调整虚拟筛选中的参数——包括所使用的对接方法、靶标残基的质子化状态,甚至使用哪个靶点氨基酸——以最大化对接软件区分已知结合剂和非结合剂的能力。当预测一组共享共同骨架的配体的结合姿态时,可能需要要求所有化合物的共同支架在所有化合物中都放置在相同的位置,正如RosettaLigandEnsemble(RLE)方法所说明的那样(这种方法特别考虑到了结构相似的小分子倾向于以相同的姿态结合到同一个蛋白质的结合袋上。RLE 通过同时对接一组结构相似的配体(即一个叠加合奏),来利用这些信息。在独立优化单个蛋白质-小分子界面之前,RLE 会确定一个对整个叠加合奏得分良好的总体姿态。这种方法在交叉对接基准测试中表现出提高采样效率,并能够挽救单个配体的对接失败,从而在一些情况下鉴定出与自然相似的得分最高的模型。RLE 的改善是通过在保持相当大的共同化学支架的同时,对远端基团进行有意义的修饰来实现的)。
我们最近介绍了一种自动化方法,该方法可以显著提高结合姿态预测的准确性,因为已知的其他一些配体可以结合靶标,即使这些化合物与感兴趣的配体没有任何共同骨架(图5a)。ComBind可以同时预测所有已知配体的结合姿态,而不假设配体采用相似的姿态或与结合口袋形成相似的相互作用。相反,ComBind使用一个评分函数,该评分函数考虑预测的每个配体的姿态中形成的相互作用的相似性以及每个单独姿态的标准对接分数。为了量化相互作用的相似性以及这种相似性相对于标准对接分数应如何加权,我们对大量数据应用了机器学习策略,这些数据涉及不同的目标。这种策略即使在训练中使用的目标非常不同的情况下也能显著提高结合姿态预测的准确性,即使只有一两个其他配体已知(图5b)。
ComBindVS(另外一种方法),在已知只有少数几个配体结合目标的情况下,实现了比标准对接(或基于配体的虚拟筛选)更好的虚拟筛选性能,ComBindVS不需要任何实验确定的结合姿态。即使只有一种或两种配体已知,即使这些已知配体与虚拟库中的任何化合物有很大不同,它也能显著提高虚拟筛选性能(图5c)。
突变实验也用于指导结合姿态预测,因为对直接与结合配体相互作用的蛋白质氨基酸残基的突变通常对配体的结合亲和力影响最大[95]。解释突变结果的复杂性在于,一些突变对配体结合和蛋白质功能有非局部效应。一种称为突变循环分析的策略通过考虑突变对一对配体的影响来缓解这个问题,这些配体仅在一个位置(即,每个配体的一小部分)不同。如果突变特定残基对这两个配体的结合亲和力有显著不同的影响,则该残基最有可能在它们不同的位置上与一种或两种配体接触。

图5 结合结合靶标的其他配体的知识。(a) 用于姿态预测的 ComBind 方法与标准对接的不同之处在于,在对查询配体进行预测时,它还考虑了已知结合目标的其他配体(其结合姿态未知)。(b) ComBind 大大提高了结合姿态预测的准确性,即使使用很少的额外已知配体。该图显示了代表所有常见药物靶点家族的 30 种不同靶蛋白的平均性能。(c) ComBindVS利用相同的信息(一些以前已知的配体)来提高虚拟筛选的准确性。ComBind 首先用于预测已知配体的姿势,然后使用 ComBind 评分(包括已知配体)对候选库中的化合物进行排名。该图显示了整个DUD-E基准组的平均性能,仅限于与已知配体非常不同的候选化合物。ComBindVS的性能大大优于标准对接和基于配体的筛选方法,该方法考虑了候选化合物与已知配体的化学相似性。缩写:DUD-E,有用诱饵目录:增强;RMSD,均方根偏差。

八
正在进行的研究
对接方法的性能远远超出了实际有用的标准,但仍有很大的改进空间。各种正在进行的工作有望提高对接的性能和适用性。
【分子动力学模拟方法Molecular Dynamics Simulation Approaches】
经典对接方法的一个主要挑战是,每个评分都是基于单一的配体姿态和目标构象来计算的。即使是柔性受体对接,在评分时也只考虑一次一个目标构象。实际上,分子系统始终在运动中,结合姿态和能量取决于系统可以采用的所有结构集合。分子动力学(MD)模拟通过模拟感兴趣的分子中所有原子的运动,可以提高对接的准确性,但代价是需要更多的计算资源。
MD模拟由于图形处理单元(GPU)的广泛可用性而变得更加易于访问,并且由于这些模拟所使用的分子力场质量的提高而变得更加准确。使用MD模拟预测结合姿态和能量的最直观的方法是简单地运行化合物和目标的长时间模拟,并观察化合物在哪里结合以及结合的频率。尽管有一些显著的成功案例,但传统的平衡MD模拟通常无法达到直接观察配体反复与目标结合和解离所需的时间尺度。为了克服这个障碍,已经开发了几种专门的模拟方法。
最广泛使用的这些专门MD模拟方法是“炼金术”方法,它们估计一对相似配体之间的结合自由能差(即FEP,自由能微扰)。这些方法需要事先知道结合姿态,如果运用得到,它们可以比传统对接评分函数更准确地预测一系列结构相似配体的相对结合能量,这个方法在先导化合物优化上已经有不少成功案例了。并且已经开发了相关的方法来估计已知结合姿态的单个配体的绝对结合自由能。这些方法可以用于在虚拟筛选中对大量结构不同的配体进行排名,但它们的准确性较低,计算量也比用于计算相似配体的相对结合能量的方法要大得多。已经提出了适合结合姿态预测的基于MD模拟的方法。这些方法使用定制的模拟程序,这些程序比“炼金术”方法的计算成本低得多,以评估候选结合姿态的稳定性,使得评估一定数量的候选姿态成为可能。
还提出了各种策略,以使用模拟来深入了解靶标上有利的结合位点,然后可以在经典的对接评分函数中加以利用。模拟可以用来确定从特定结合位点置换水分子的有利性,这可以作为评分函数中的一个额外项,还有一系列方法,通常称为混合溶剂MD模拟,利用在各种有机溶剂存在下的模拟来检测有利的结合位点,包括在目标的可用结构中未开放的隐蔽位点。
【机器学习Machine Learning Approaches】
当前研究中有相当一部分集中在应用机器学习来提高对接的准确性和适用性。这方面的工作在几个领域都有希望。
首先,机器学习评分函数(MLSFs)旨在提高传统对接中使用的经验评分函数的准确性。与受基础物理启发并通常只包含最多几十个参数以适应实验数据的经验评分函数不同,最近出现的MLSFs采用了更通用的模型(例如神经网络),这些模型拥有更多的参数,可以直接从数据中学习评分函数。MLSFs通常以简单的候选结合姿态表示(如原子的三维坐标和元素类型)作为输入,然后直接从数据中学习评分函数。虽然忽视基础物理知识看似不明智,但配体结合有许多固有的复杂性,可能难以用传统的评分函数项来捕捉,例如模型需要考虑整个邻近姿态族(熵;见“生物物理学配体结合”部分)和相互作用能量的非加性。MLSFs可能提供了一种隐式考虑受体灵活性的方法。MLSFs的发展得益于为组装适当的训练和基准数据集所做的努力。
其次,已经开发了通过使用机器学习模型近似对接过程来加速虚拟筛选的方法。这个工作很及时,因为最大的按需库正在变得太大而无法直接筛选。在这个主动学习范式中,虚拟库的一小部分被对接,结果被用来训练一个机器学习模型,然后可以快速应用于库的其余部分。这个策略也可以用于近似计算成本高昂的炼金术方法的结果,以加速先导化合物优化。
第三,各种生成模型直接输出与目标结构兼容的化合物。化学空间对接方法通过首先对接各个组分,然后扩展得分最高的组分来搜索组合按需库。已经提出了使用遗传算法搜索具有有利对接分数的化合物。深度学习方法也可以用来在给定目标结合口袋结构的情况下生成配体。
最后,用于结合姿态预测的生成模型直接输出结合姿态,挑战了将对接问题分解为采样和评分模块的传统范式。鉴于这个研究方向还处于初级阶段,目前还不清楚这些方法在实践中会有多大的用处,但初步报告显示出相当大的前景,特别是对于近似靶标结合位点未知的情况。也有一些团队在以不同方式挑战采样和评分范式,他们发布了一些在不采样结合姿态的情况下预测结合能的机器学习方法。

九
总结
虽然对接的准确性远非完美,但它已经在多种情境下促成了重要发现。持续的方法学进步有望提高对接的准确性,而实验方法的补充创新将使对接更加有用。总之,这些进展有望扩展基于结构的药物发现的能力,也许有一天能够常规设计出具有强结合亲和力、对靶标功能的预期效果和有利安全性的配体。
E n d
Discovery Studio软件介绍
BIOVIA Discovery Studio 是一款生命科学分子模拟软件,它为研究人员提供了一个完整的工具集,用于探索蛋白质化学的细微差别并促进小分子和大分子治疗药物的发现,帮助研究人员在抗体开发过程中扮演重要角色。
此外,DS软件还提供了抗体自动建模,可以轻松快速地从一组轻链和重链抗体序列以及经过策划的 PDB 抗体模板数据库生成高质量的 3D 抗体全长、Fab 或 Fv 模型(也可以实现对纳米抗体和双特异性抗体的3D建模)。
除此之外还提供了对抗体人源化建议和预测抗体及辅料对抗体的聚集效应。这些工具可以帮助研究人员更好地理解抗体的性质,并在开发和配方过程中尽早改进这些性质,从而加快产品上市的速度和降低总成本。

公司介绍


东方科软成立于2016年10月,总部设在北京,主要服务材料科学与生命科学两大领域的用户,为其提供模拟仿真软件、技术咨询、技术培训及技术支持服务。
公司打造行业领域产品生态圈,不断引进国内外各种先进产品与技术,为材料和药物的设计与创新提供综合解决方案。团队专业背景覆盖材料科学、物理、化学化工、石油石化、生物医药等重要领域,能为用户提供专业、高效、快捷、精准的技术支持与服务。
目前,我们已服务上百家相关学术及企业用户,为他们的产品研发和创新提供了强有力的科学信息软件技术服务与产品支持!