【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

0 评论

简介

 

本文翻译自Marta Bon等人于2022年发表在Molecular Oncology上的一篇综述,旨在帮助读者初步了解基于片段的药物发现/设计(因水平有限且没有根据原文引用参考文献,有兴趣的读者可以阅读原文,DOI:10.1002/1878-0261.13277)。

 

基于片段的药物发现(FBDD)现在被确立为高通量筛选(HTS)的补充方法。HTS主要是筛选大的类药分子库,与HTS相反,FBDD筛选涉及更小和更不复杂的分子,尽管对蛋白质靶的亲和力低,但显示出比大分子更多的“原子效率”结合相互作用。因此,片段命中可以作为后续优化的更有效的起点,特别是对于难以给药的靶点。由于可能分子的数量随分子大小呈指数增长,与包含较大分子的较大HTS文库相比,较小的片段文库允许它们各自的“化学空间”按比例更大的覆盖范围。然而,良好的片段库设计对于确保最佳的化学和药效团多样性、分子复杂性和物理化学特性至关重要。在这篇综述中,我们描述了我们对片段库设计的看法,以及从医学和计算化学的角度来看什么是好的片段。我们强调了FBDD新兴的化学和计算技术,并讨论了优化碎片命中的策略。新的FBDD方法的影响已经被感受到,最近共价KRASG12C抑制剂Sotorasib(译者按:sotorasib,索托拉西布,用于治疗既往至少接受过一次系统治疗的携带KRAS G12C突变局部晚期或转移性非小细胞肺癌(NSCLC)的患者,由安进公司研发并于2021年被FDA批准上市,属于KRAS抑制剂)的批准突出了FBDD对长期被认为不可药物治疗的靶点的效用。

 

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

 

 

1 引言

 

在过去的二十年中,基于片段的药物发现(FBDD)已经证明了其作为高通量筛选(HTS)的补充且非常成功的方法的实用性,用于鉴定分子以进行命中到铅运动,在此期间筛选活性物质的特性和效力得到广泛优化。 迄今为止,使用FBDD方法已经产生了六种上市药物,培西达替尼(pexidartinib),维莫非尼(vemurafenib),厄达替尼(erdafitinib),维奈托克(venetoclax),索托拉西布(sotorasib)和阿西米尼(asciminib),以及许多临床候选药物(图1)。

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

图1 突出显示影响FBDD进程的关键论文的时间轴(蓝色)和显示其成功的重要日期(橙色)。在一篇早期的概念论文中,Jencks概述了大分子片段结合能的可加性。安德鲁斯等人随后估计了一系列官能团对配体-受体相互作用的内在结合能贡献。基于互补配体-受体特征的简单模型,Hann等提出复杂性较低的分子可能为药物发现提供更好的起点,并讨论了对高灵敏度检测的需求。随着人们对基于片段的药物发现的兴趣日益增加,常用的指标包括“三法则”和配体效率。

 

该方法已广泛应用于全球的制药、生物技术和学术机构,在主要出版物中,2019年报告了20个片段到,2020则年报告了21个片段。片段库能够对比HTS文库更大的化学空间进行采样,但化合物数量要少得多。复杂分子与目标形成次优相互作用和/或冲突的机会更大,这与更有可能产生原子有效结合相互作用的片段不同。因此,只有一到两千个小分子的文库可以很容易地为药物发现计划提供高质量的Hits(译者按:药物发现过程中主要涉及几个名词,分别为hits,lead,Candidate,drug,对应不同的发现阶段)。此外,片段命中率可用作评估靶标的潜在成药性,并可用于识别难以靶向的结合区域,例如变构位点或通常与蛋白质-蛋白质相互作用有关的小“热点”结合口袋。维奈托克是首批靶向蛋白质-蛋白质相互作用(PPI)界面的药物之一,以及最近的sotorasib,其靶向以前被认为不可成药的KRAS G12C突变体。什么定义了片段?公认的核心定义将片段描述为有机小分子,通常具有≤20个重原子(译者按:一个化合物中的所有非氢原子个数)。过去的片段库设计倾向于广泛遵循“三法则”(Ro3)的物理化学性质,这已成为片段世界中Lipinski规则的同义词。它们是:分子量≤ 300 Da,氢键供体(HBD)≤3,氢键受体(HBA)≤3和计算的分配或分配系数的对数(cLogP / cLogD)≤3。此外,可自由旋转的键≤3和极性表面积(PSA)≤60通常被认为是Ro3标准。然而,这不是一套“硬性”的规则,选择标准随着时间的推移而发展。成功的片段通常会违反这些规则中的至少一条,最常见的是具有更高的HBA数(图2)。

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

 

图2 所选未过滤的大型商业片段集中的属性分布。(A)一般片段集来自Maybridge(30,061种化合物),Life Chemicals(50,597种化合物),Enamine(172,689种化合物)和ChemDiv(11,269种化合物)。在vortex软件中计算氢键供体(HBA)/受体(HBD),重原子计数(HBC)和包括N,O,P和S在内的总极表面积(TPSA_NOPS),预测的logD(cLogD)和水溶性(logSw)是在admet预测软件中计算的。黑线分别表示连续或离散属性的平均值或中位数。(B)同一片段集中最大内部相似性的分布。对于每种化合物,在RDKit针对使用摩根指纹的集合中的所有其他化合物,半径 2。对于每种化合物,保留与任何其他化合物的相似度最大值。(C)相同库中相同化合物的数量。例如,Maybridge和Life Chemicals系列中都存在633种化合物。

 

片段命中往往具有弱亲和力,解离常数(kd)值在 μM–mM 范围内,而 HTS 命中通常在nM–低μM范围内具有更强的亲和力。因此,它们通常需要更广泛的化学研究才能获得类先导化合物,这在学术环境中可能特别困难。它们的亲和力较弱也意味着通常用于HTS筛选的生化测定不能用作片段结合的准确测量。相反,生物物理技术,如核磁共振(NMR),表面等离子体共振(SPR),X射线晶体学和热位移测定通常用于探测结合,通常使用两种正交方法来验证任何命中。找到高质量的点击很大程度上是良好的库设计的结果;筛选简单、极具吸引力的分子,跨越广泛的化学空间。在这里,我们描述了我们对片段库设计的看法以及什么是好的片段。

 

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

 

 

2 片段库的要求

 

当前可用的片段库及其局限性

 

构建片段库是为了探索广泛的化学空间,同时筛选有限数量的化合物。因此,多样性通常是片段库设计的主要驱动力。然而,在某些情况下,考虑靶标类也可能是有益的,例如,是否应包括已知与功能相关蛋白质靶标结合的特定配体部分。许多片段库现已上市,涵盖一系列属性和化学空间。这些是文库开发的一个非常有用的起点,通常经过过滤以包含所需的药效团、化学和形状多样性。

 

尽管如此,仅使用一个商用片段库仍存在一些限制。每个库的大小和多样性各不相同,因此,与设计定制套装相比,可能不是最佳选择。商业文库通常也大于成功运行命中识别活动所需的片段数量,因此通常需要对每个文库进行过滤以给出合理的集大小。虽然市售化合物之间存在一些重叠,但通常每组化合物中都包含高度独特的化学实体。因此,“混合搭配”以获得所需的特性和最佳多样性是有益的。此外,根据筛选方法,可能需要检查可购买片段的溶解度和稳定性。在FBDD期间,低溶解度可能是一个特殊的问题,因此一些供应商现在寻求提供特定的“高溶解度”套件。传统的有机片段集也往往具有高度的平面性,这可能导致溶解度问题,富含sp2的芳香环在许多化合物中显示为亚结构。这部分导致已经筛选片段的传统靶标(例如激酶)以及催化sp2-sp2偶联反应的使用增加。同样,供应商已经通过提供具有更大 sp3 和 3D 特性的库来解决这个问题。无论有大量市售片段,重要的是尝试用内部化学工作等非商业上可获得的片段来补充任何文库。这样的骨架可以为未来的优化策略提供良好的基础。

 

你如何设计一个库?

 

2.2.1 药物化学注意事项

 

片段集的设计和生长通常从检查和过滤市售集合开始,以排除含有已知有毒结构(毒载体)的化合物并保持所需的药代动力学特性(表1)。虽然这些特性大致遵循Ro3,但还有其他几个选择标准,应该仔细考虑。核心上可合成的修改点对于实现潜在客户优化的增长载体非常重要。溶解性和疏水性也是关键因素,它们会影响不必要的潜在聚集。HBA、HBD和其他结合基序的加入不仅对于帮助焓驱动的结合相互作用至关重要,而且对于确保cLogD在所需范围内也至关重要。每个片段的大小和复杂性应最小,以推动有效的交互并避免与目标发生冲突。因此,由于熵成本,具有高度灵活性的分子可能会导致较低的亲和力命中。然而,必须在包含极性官能团和理想药效团方面取得平衡,以便保持集合的复杂性和多样性。

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

表1 Beatson Drug Discovery部门在过滤商业产品时使用的典型特性范围,以及说明我们的1H片段集在每个特性方面的组成的描述性统计数据。

 

针对已选择的片段进行相似性筛选,检查2D指纹和/或3D相似性,促进文库多样性。通过包含包含焓驱动药效团的各种片段形状,更有可能识别独特的Hits,这将提高相关化学空间的采样效率。此外,还必须考虑固有的化学稳定性和反应性,同时排除任何毒性责任。为此,片段库的定期质量控制(QC)对于确保仅筛选高质量化合物非常重要。泛测定干涉化合物(PAINS)过滤器可用于去除与许多生物靶标非特异性结合的分子。几个几乎没有进步潜力的频繁命中者也被发现,因此应该避免。如下所述,几种计算方法可用于属性预测和过滤目的。近年来,关于在筛选库中包含更高程度的3D片段进行了一些讨论,有些人担心这会导致较低的命中率。然而,命中率并不能定义文库的成功,因为确定配体效率和化学可处理的起点更为重要。增加三维度(或Fsp3)的百分比有可能覆盖更广泛的生物学相关化学空间,改善潜在的药物化学起点,“频繁命中者”(在许多不相关的筛选中显示为活性物质的化合物,因此可能缺乏特异性)通常落在低Fsp3范围内。已经表明,增加sp3特性可以改善几种化合物特性并有助于临床成功。特别是,在3D结构中掺入面外官能团可以潜在地实现更强的受体/配体相互作用,从而提高对给定靶标的效力和选择性。

 

库大小重要吗?是也不是。大多数成功的FBDD活动利用了1000到2000种化合物的库;然而,片段库的多样性比总数更重要。von Itzstein进行的一项研究表明,只需要约2000个片段就可以代表与220,000>整体集相同水平的真实多样性。因此,玩数字游戏不是必需的,相反,设计一个具有高度多样性的较小库更有益且更具成本效益(图3). 最近,诸如“SpotXplorer”之类的小型文库已被设计用于最大限度地提高实验证实的结合药效团在蛋白质热点处的覆盖率。该方法的有效性通过仅包含 96 个片段的文库得到验证,这些片段在流行的靶标类别(例如GPCRs)以及新兴靶标(例如Su(var)3-9、Enhancer-of-zeste和SETD2)上得到了验证。

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

图3 英国癌症研究中心Beatson药物发现单元1H片段集与选定的商业集的比较。(A)平均最大内部相似度。对于任何一组化合物,使用RDKit中的Morgan指纹(半径2)计算与所有其他化合物的谷本相似度。保留每个化合物的最大值,并在集合上取平均值。(B)每组独特的Bemis-Murcko支架的比例。使用vortex软件提取每组化合物的Scaffold SMILES,并保留唯一的规范SMILES。每个文库中独特支架的数量相对于化合物的数量表示。商业集合:Enamine有1,920化合物;Life Chemicals有50,607个化合物;ChemDiv有 11,269个化合物;Bionet有1,166个化合物。

 

2.2.2 计算库设计

 

片段库设计的一种方法是从已知的生物活性分子开始。因此,可以根据一些“切割规则”和为有前途的候选化合物确定的商业可用性,从解构较大分子中获得片段。例如,可以通过在 BindingDB中搜索来确定对结合已知靶标做出贡献的片段。分解现有分子的最著名方法是RECAP和BRICS。RECAP通过破坏常见化学反应产生的键来识别现有分子中的片段。裂解仅涉及11种化学键类型,并且所有键都在一步中断裂。戒指图案保持不变。从早期阶段开始,RECAP开发人员就允许用户选择替代键类型,并且多年来对代码进行了多次修改。在RECAP修改中,BRICS是最受欢迎的修改之一,涉及包含一套用于化学空间重组的补充规则(例如环置换和硫基裂解的建模),导致16个片段原型的定义。已经表明,这些修饰通常会导致产生比使用RECAP规则获得的片段更小的片段数量更多的片段。此外,BRICS产生了更多具有多个连接点的片段,这意味着在获得的子集中有更多的分支可能性。然而,由于FBDD的一个关键优势是其对化学空间的有效采样,因此仅基于已知生物活性化合物的可用片段的文库可能不是可取的,因此需要进行增强。例如,Selcia Ltd 通过对符合 RO3的 RECAP 生成的生物活性片段的管理和计算的溶解度阈值进行初步选择,开发了包含 3 个片段的商业文库。这些辅以代表性不足的片段类别和针对非商业可用片段的定制合成程序,以提高新颖性。

 

商业片段集通常大致符合 RO3 标准(图2)。但是,如下所述,特定类型的片段也可能具有独特的属性分布,并且可以根据不断变化的需求执行进一步的属性过滤,以增强库的背景组成。重要的是,人们不应该假设商业集中没有不需要的功能,尤其是对于较大的集合。因此,执行子结构搜索以识别片段,通常使用以Daylight SMARTS格式表示的过滤器(SMILES任意目标规格格式,其中SMILES是指基于字符串的简化分子输入线输入系统分子表示。保持多样性也至关重要。简单的第一步是相似性筛选,利用2D指纹的谷本相似性的适当截止值来排除供应商集中与现有文库片段高度相似的化合物。关于最常用的分子指纹图谱的详细讨论超出了本综述的范围,感兴趣的读者可以参考这篇文章(Fragment descriptors in SAR/QSAR/QSPR studies, molecular similarity analysis and in virtual screening)。对于一对二进制指纹,谷本相似性是组成每个指纹中位的交集/并集的集合的大小之比。因此,如果所有元素在两个指纹中共享,则相似性为一。如果未共享任何元素,则相似度为零。为了测量潜在化合物添加对文库的影响,可以对有或没有新候选化合物的文库的集合内相似性进行分析。过滤也可以用药效团指纹图谱完成。药效团被定义为确保最佳配体/受体相互作用所必需的最佳空间位阻和电子特征。药效团建模将分子表示为2D或3D级别的特征集合,该信息被二进制编码为药效团指纹,指示是否存在药效团特征以及配体拓扑信息。因此,药效团指纹图谱对于分析相似性和消除冗余特别有用。

 

对最佳分子复杂性的需求是FBDD的基本概念,并且已经开发了各种合成可追踪性和结构复杂性的指标,可用于过滤片段。近年来,提高片段库的形状多样性也越来越受到关注,如果对库的 3D 特性特别感兴趣,还可以执行计算成本低于 3D 药效团形状相似性的分析。sp3杂化碳(Fsp3)的分数是一种简单的计算特性,如上所述,它与改善的药代动力学特性和临床成功有关。主惯性矩(PMI) 表示引起刚体围绕正交旋转轴的角加速度变化所需的扭矩。当适当归一化时,三角形PMI图表示分子呈杆状、圆盘状或球状的程度。最佳拟合平面(PBF)是另一个3D形状度量,它计算单个计算构象中所有重原子的平均距离,远离最佳拟合平面,使该平均值最小化。最近报道了一种利用化学图理论结合SMILES符号进行定量结构-活性或结构-属性关系建模(QSAR / QSPR)的有趣方法。在这种方法中,使用输入分子的连接信息构建图(一组节点,代表原子,边代表键),并从可能的子图中获得分子片段。在结构数据集中获得的所有独特片段都可以整理,单个分子中每个片段的计数可以用作QSAR / QSPR模型中的描述符。有趣的是,可以检索到与训练模型中的活动相关的片段,这表明这也可以用作另一种合理的片段选择方法,尽管我们不知道这种用途在库构建中的例子。雷蒙德小组此前还报道了“化学宇宙”数据库GDB-17,其中包括由C,N,O,S和卤素组成的所有化学图的枚举,最多17个重原子,随后,同一小组发布了其中10万个低复杂度子集,用于QSAR方法等虚拟筛选。除了过滤商业集以选择新片段的标准技术之外,由人工智能进步驱动的从头计算机分子设计的新方法可以通过自动设计具有最佳感兴趣特性的新型片段在文库生成中得到应用。从头设计是指虚拟生成满足可能靶标结合等标准的新型化合物,并且已经研究了数十年。从头设计方法大致分为基于受体(靶标结合位点的结构已知)或基于配体(例如,使用没有任何蛋白质结构信息的已知粘合剂的3D药效团),最近,该领域的大量努力集中在生成神经网络上,这些神经网络通过学习大型和多样化化合物集的特征来训练产生新分子。简而言之,迄今为止报告的大多数生成化学框架都广泛基于自动编码器(AE),生成对抗网络(GAN)或最近的变压器模型。自动编码器由编码器和解码器部分组成。编码器生成其输入的尺寸缩小的“潜在变量”表示。解码器接收此作为输入,并学习在输出处重建每个输入训练示例。变分自动编码器(VAE)的结构类似,尽管在这种情况下,训练目标包括一个项,该项强制潜在变量分布接近所需的预选先验分布(通常是高斯分布)。这种添加在学习的潜在空间上强制执行正则化。相比之下,GAN由生成器和鉴别器网络组成。生成器从多元先验分布中提取随机样本,并将其转换为感兴趣数据的候选示例。鉴别器对所提供的示例进行评分,并尝试将其分类为真假。两种模型同时在逆境中训练,导致 2 人零和博弈,其中一个模型的改进导致另一个模型的性能下降。因此,生成器的改进对应于通过从随机噪声中采样来产生与鉴别器感知到的真实数据分布更匹配的样本。对于这两种模型类型,通过从学习的潜在表示或学习的分布中采样和解码,可以生成训练中看不到的新分子。通常,这些模型已被训练为直接输出新分子的SMILES表示。在AE/VAE框架中,这是一个适合递归神经网络(RNN)的“序列到序列”学习任务,然而,在较长的序列中有效学习长程依赖性和上下文对RNN来说可能是有问题的。可以通过引入“注意力”机制进行改进,该机制对位置上下文的信息进行编码。转换器通过使用“仅注意”框架扩展了这一概念,该框架消除了基于序列的任务中对RNN的需求。最近,这种较新的方法也被研究用于分子优化和反应预测。除了SMILES之外,还利用了一系列其他分子表示。Deep-SMILES和自引用嵌入式字符串(SELFIES)是专门为生成建模开发的替代字符串表示形式,它解决了语法不正确(无效)字符串通常由基于SMILES的生成器返回的问题,有趣的是,最近报道了一种快速生成算法(使用SELFIES),该算法消除了对机器学习模型的需求,使用分子图的生成模型也有报道。

 

从头分子设计在药物发现中的大多数应用自然都是针对生产类药物分子,尽管上面的模型框架同样适用于片段生成。我们最近报告了一个片段自动编码器模型,该模型经过训练可以重现SMILES和化学指纹。使用来自先前屏幕的内部数据,我们将迁移学习应用于指纹解码器层,以开发一个模型,该模型对新生成的分子成为“特权”片段(能够与多个蛋白质靶标结合)的可能性进行评分。我们的采样方法使用粒子群优化来同时优化特权片段分数,合成可及性和Fsp3等标准。Winter等人也报告了类似的采样方法,以鉴定潜在的表皮生长因子受体(EGFR)和β位点淀粉样蛋白前体蛋白裂解酶1(BACE1)抑制剂,同时针对具有多种吸收,分布,代谢,排泄和毒性(ADMET)特性的支持载体模型进行优化。在另一种基于片段的方法中,Arus-Pous等人开发了一个“脚手架装饰器”模型。这包括一个脚手架生成器模型,该模型输出具有定义连接点的片段。这些随后由装饰器模型修改,该模型将符合 Ro3 标准的组添加到每个连接点。在一项实验中,作者使用一组通过碎片化已知的多巴胺受体D2(DRD2)调节剂获得的支架和装饰来训练模型。然后,该模型能够生成新的分子,当使用不同的新支架时,计算机预测活动。这种方法有可能被用来针对给定目标提出碎片化命中增长战略。我们将在下面进一步讨论生成建模在片段阐述中的潜在应用。

 

不同类型的片段库和一些注意事项

 

2.3.1 19F

 

核磁共振是用于检测弱结合剂的最古老和最可靠的技术,Shuker等人最初在1996年报道了“核磁共振SAR”。 从那时起,该领域得到了大幅发展,异核波谱方法(检测源自1H以外的原子核的化学位移,例如19F)现在与1H NMR波谱一起广泛用于鉴定新型粘合剂。考虑到这一点,设计用于19F NMR筛选的含氟原子的片段库现在是片段筛选过程中的关键组成部分。上述一般文库设计考虑因素应应用于19F片段文库,但需要注意的是,分子必须至少包含一个氟原子。

 

1H筛选依赖于片段鸡尾酒(fragment cocktails),需要仔细设计以限制信号重叠。相比之下,使用含19F的片段可以简化光谱分析,因为化学位移分散更宽,与背景信号的重叠最小。因此,可以在大约19种化合物的混合物中筛选20F片段文库,而标准混合物仅包含5-6个分子实体。有趣的是,已经表明,~1200个氟化化合物的文库大小可以实现与一组~2000个标准片段相似的多样性水平。由于改善了物理化学和代谢特性,与将其用作生物等排体有关,因此包含氟可能是一个额外的优势。因此,如果它增强先导化合物的相互作用和/或改善ADME特性,则在细化过程中不需要将其去除。

 

2.3.2 共价

 

虽然标准的1H和19F NMR库占FBDD筛选的大多数,但最近一些新技术已经取得成果。随着人们对共价抑制剂的兴趣重新拾起,共价片段领域引起了人们的关注。所有共价片段都含有反应性亲电官能团,通常能够与氨基酸残基形成不可逆键。除了标准的FBDD考虑因素外,在设计共价片段时,还必须考虑亲电官能团的稳定性(固有和生理条件)、反应性和大小。与传统的片段筛选不同,所需的参数可能会根据目标蛋白质而变化。因此,文库设计可能受到氨基酸残基的性质[[81]]及其在活性位点内的位置的影响。氨基酸侧链的亲核性和pKa可以根据蛋白质环境而变化,因此,反应性较低的氨基酸残基可能需要反应性更强的弹头才能有效反应。因此,希望维持一个包含一系列反应性以及不同亲电官能团的文库。值得注意的是,将高反应性弹头纳入筛网可能导致识别较低亲和力的结合物,其失活率恒定(kinact)由于共价键的形成,在结合事件中起比抑制常数(ki) 由可逆绑定产生。

 

除了考虑弹头的反应性外,亲电功能最好由最小的接头附加,而不是嵌入碎片支架中。这主要是因为弹头的几何形状和迎角在形成所需的共价键方面起着重要作用,因此,易于接近弹头更有可能允许命中识别。共价命中可以使用传统的片段策略生长和合并,以通过非共价相互作用增强结合亲和力。一旦支架得到优化,甚至可以拆除弹头并保持亲和力。为此,可能倾向于采用共价方法来帮助识别亲和力较低的变构位点。然而,这种方法仅在存在合适的亲核残基时才适用。还应谨慎行事,以确保结合发生在“真实”位点内,就像任何片段命中一样,并且不是片段亲电性升高的结果。

 

共价片段的筛选可以通过NMR进行,就像传统的片段组一样。事实上,在多维异核实验中,随着化学位移扰动明显增加,峰通常更明显,从而更容易分析。以这种方式筛选了含溴结构域蛋白4(BRD4)和KRas等备受瞩目的靶标。尽管如此,核磁共振通常未得到充分利用,通常采用更简单的MS研究进行筛选。液相色谱-串联质谱(LC–MS/MS)可以准确检测共价结合是否以高通量方式发生。非变性MS通常与飞行时间(TOF)仪器结合使用,以实现对靶标和片段的高灵敏度检测。消化方案也可用于准确确定哪个氨基酸发生了反应。以这种方式筛选了100-1400种化合物(主要是丙烯酰胺和氯乙酰胺)的共价片段库,以鉴定Janus Kinase(JAK)和KRas)等已知靶标的粘合剂。

 

最近引入了共价片段对接算法作为计算机方法发现可逆和不可逆片段抑制剂。还报道了使用其他检测类型的筛查。利用核苷酸交换测定法鉴定KRASG12C通过Carmot Therapeutics Chemotype Evolution技术制备突变结合剂,需要基于现有片段样分子快速合成和测试文库。这通过药效团链接生成了一个“超越 3 规则”片段的自定义库。丙烯酰胺化合物在筛选前未纯化,最终导致发现了AMG-510(sotorasib),该药物于2021年获得FDA批准用于治疗非小细胞肺癌(NSCLC),直到2018年才进入临床。值得注意的是,从Shokat集团在2013年首次发表证明KRASG12C突变体的可药用性到治疗现实生活中的患者,仅用了8年时间。

 

2.3.3 碎片和小碎片



2019年,Waring等人和Jhoti等人独立报告了使用“Fraglites”和“Minifrags”鉴定配体-蛋白质相互作用。Waring等人假设可以使用具有最小分子量(≤13个重原子)和复杂性的小型分子库来识别相互作用位点。因此,他们利用了一组含有“药效团双联体”的化合物,能够形成两个极性键,但具有不同的空间取向。卤素与这些成对的氢键基序一起包含在内,以允许在X射线晶体学中明确识别,利用卤素取代基的异常散射。选择了一组 31 种“FragLites”,以包含用于 X 射线晶体学筛选的高水溶性的所有药效团双联体组合。通过绘制细胞周期蛋白依赖性激酶2(CDK2)的图谱证明了该方法的实用性,可识别直位位点和变构位点,命中迅速发展为先导化合物。同样,Astex的“Minifrags”方法也利用高溶解性,超低分子量化合物(平均HAC

 

2.3.4 PhABit

最近,FBDD领域已经扩展到包括基于光亲和力的筛选方法,Bush等人报道了使用“PhABit”通过共价捕获鉴定蛋白质 – 配体相互作用。该方法利用光反应性片段,在用光照射时,在生化环境中与近端蛋白质残基交联。然后可以通过完整的蛋白质LC-MS鉴定命中,并进行后续研究以确定结合亲和力和交联位点。这是在Cravatt及其同事报告的早期工作之后,其中光反应性片段用于鉴定活细胞中的片段 – 蛋白质相互作用。Phabits利用纯化的蛋白质来实现对目标蛋白质的高通量和靶向筛选,这在论文中通过鉴定KRAS的粘合剂得到了证明G12DBRD4-Protacs仅使用556个片段。识别出的命中可以立即用作置换测定中的报告,以特定地点的方式筛选更有效的粘合剂。尽管未来具有潜在的优势,但获得市售光反应性片段的机会仍然很差。此外,一些靶标类别,如膜结合蛋白,不太可能对该方法有反应,因为它们通常需要稳定在脂质双层中。此外,交联产率通常较低,并不总是与亲和力相关。

 

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

 

 

3 片段生长

 

与任何筛查活动一样,需要优先考虑命中以集中资源。但是,是什么让一个好的片段命中?需要考虑多个参数。生物活性显然是最重要的之一,因此靶标结合验证和配体效率(LE)或亲脂效率(LiPE)等参数的生成有助于促进适当的比较。概括地说,生长分子会增加亲脂性,因此亲水性更强的撞击可能是有利的。除此之外,重要的是要考虑许多其他因素:溶解度、商业类似物和起始材料的可用性、整体合成可处理性,也许最重要的是结合模式结构信息的可用性。用于验证和即时SAR的紧密类似物的可用性非常重要,因为它将决定项目的进展速度。此时,应该忽略频繁的hitter和不需要的功能。虽然,使用设计合理的筛选库,这种类型的命中率应该是最小的。增加命中以增加分子的大小并包含额外的功能是从片段到类似药物的分子的最直接方法。确定生长载体和与靶标的潜在相互作用点对于合理设计非常重要,如果没有晶体结构的帮助,可能会很困难。为此,X射线晶体学已成为一种越来越流行的快速命中勘探筛选方法,XChem和FragMAX等平台现已广泛使用,一些小组还探索了通过这种方法筛选粗反应混合物。然而,生长晶体可能具有挑战性,分辨率可能很差,并且仍然需要二级技术来确定结合亲和力。在无法获得结构信息的情况下,可以从核磁共振实验中获得证据,或者从对接计算中获得的片段/受体复合物可以用作有根据的猜测,对接计算允许预测受体/配体结合基序并为获得的结合姿势分配排名分数。在最幸运的情况下,对接评分可以直接与实验结合亲和力相关。使用具有已知实验结合亲和力的现有受体/配体晶体学数据评估结果始终是一种很好的做法,特别是对于受体表现出高度灵活性的情况。对接既可用于筛选片段库,也可用于协助片段制作。通常,使用柔性配体和刚性受体进行对接,将片段核心视为固定。然而,大多数时候这个假设是不正确的,因为受体构象变化发生在结合时。因此,诱导契合对接和分子动力学(MD)等技术也用于通过对接评估预测的结合基序。由于该方法的计算成本较高,导契合通常保留用于细化目的,而不是在非常早期的筛选阶段使用。在筛选数千种化合物量级的文库时,考虑蛋白质构象自由度的一种更快、更便宜的方法是对不同的受体构象进行刚性受体对接计算,这些计算要么来自实验数据,要么来自使用MD模拟事先获得。这些可以与增强的采样技术相结合,例如加速MD和元动力学,以加速载脂受体空间探索并为蛋白质构象分配收敛概率估计。这可以被视为构象受体概率评分,并用于平均和重新权衡对接评分。在这种情况下,当受体结构未结晶并且通过Discovery Studio的moddler进行同源建模或从AlphaFold预测中获得时,载脂蛋白受体模拟可能非常有用。大多数对接计算的一个常见问题是,典型的评分函数无法准确预测远离已知生物活性配体的姿势。结合姿势总是可以通过加强对配体构象空间的探索来改善。例如,这可以使用分子动力学模拟或增强的采样技术(例如元动力学)来完成。这些算法的计算成本更高,因此不建议用于初始筛选阶段,而是用于选定片段子集的细化阶段。对接分数也可以通过使用分子力学泊松-玻尔兹曼表面积(MM / PBSA)更准确的结合亲和力估计来补充,这在速度和准确性之间提供了合理的权衡。尽管对接是 HTS 的一项既定技术,但它直到最近才开始系统地用于片段库。片段的小尺寸以及其弱亲和力和动态结合基序使得基于计算结构的片段虚拟屏幕具有挑战性。此外,缺乏完整的蛋白质-片段复合物数据集使验证和对接结果评估变得复杂。然而,一些研究表明,最常用的小分子对接程序性能可以接受。一旦已知配体-靶标复合物的结构信息已知,就可以使用支架跳跃等技术用新的分子片段替换分子支架的中心元件。在理想情况下,两个初始构建块的特征应累加地促进亲和力。但是,几何形状是关键,因此可能需要考虑几个链接/合并选项。从计算的角度来看,可以使用几种技术来估计结合亲和力。其中,我们命名为MM / PBSA和自由能扰动(FEP),后者被证明对配体优化特别有效,特别是当配体设计中的微小变化被引入时。

 

最近基于机器学习的从头设计方法的爆炸式增长也提供了许多方法,有可能帮助片段阐述。除了前面讨论的支架装饰器模型之外,Lim等人使用分子的双重输入及其Bemis-Murcko支架训练了基于图的VAE。然后,该模型可以通过依次向提供的支架添加原子和键来生成新的分子图。此外,生成可能以分子特性为条件。Green等人最近还报告了一种卷积神经网络,该网络经过训练,可以预测对应于片段的独特指纹,该片段可以添加到已知的受体/配体结构中,以提高已知输入“亲本”配体的结合亲和力。然后可以将预测的指纹与已知片段的指纹库进行匹配。Olivecrona等人使用强化学习(RL)训练了一个递归神经网络SMILES生成器,并说明了它在几个任务中的使用,包括相似性和目标活动引导的生成,RL将发电机与“批评者”相结合,“批评家”为发电机输出分配奖励。生成器经过训练以最大化此预期奖励。靶点-活性任务需要针对所选靶标(DRD2受体)的活性/非活性化合物的训练数据集,这在针对新靶标的早期命中阐述中可能缺乏。但是,RL 也可用于属性引导生成。Stahl等人在他们的RL模型中使用了基于片段的显式分子编码。另一种可用于生成结构与片段命中相似但具有目标范围特性的分子的方法是mol-cycleGAN,cycleGAN 方法旨在提供两个未配对数据域 X 和 Y 之间的映射(最初用于图像翻译的一个例子是未直接配对的马和斑马的照片)。它由两个耦合的GAN模型组成。一个模型旨在学习翻译X的元素以类似于Y的元素(例如,马→斑马)。另一个模型旨在学习逆映射。这些模型与“周期一致”目标一起训练,使得由第一个网络翻译成域Y的X元素应该通过第二个GAN映射回自身。在使用中,使用一个网络。例如,马的图像可能会被赋予斑马状条纹,在mol-cycleGAN中,训练集可以是无活性/活性化合物,也可以是发散于另一个感兴趣属性的集合。该方法用于多项任务,包括优化cLogP,同时保持结构相似性,以及预测的DRD2活性优化任务。

 

上述研究只是一个快速增长领域的一小部分样本,彻底的审查超出了这项工作的范围。然而,我们注意到,围绕药物发现中新型人工智能驱动的从头方法的兴奋源于这些方法可用于或多或少直接到达临床候选药物的建议(或至少大大减少在设计-制造-测试-分析周期中花费的时间)。迄今为止,该领域最成功的公司之一Exscientia及其合作伙伴已使用其设计平台将加速计划中发现的三种分子推进到I期[DSP-0038,一种双5-羟色胺(5-HT)1A / 2A拮抗剂;EXS-21546,腺苷A2A受体拮抗剂;和DSP-1181,一种5-HT1A拮抗剂]。。在这种情况下,人们可能会问,从头设计是否会取代FBDD。然而,许多将基于人工智能的设计应用于特定靶标的出版物都专注于众所周知和以前被药物化的靶标,这些靶标具有相对较大的生物活性数据集,例如DRD2。因此,基于人工智能的从头设计将对非常困难的目标(FBDD擅长的领域)产生的影响还有待观察。然而,这是一个快速发展的领域,整合基于结构的信息以推动发电改进的策略特别令人感兴趣。

 

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

 

 

4 结论

 

在这篇综述中,除了概述可能加速FBDD的化学和计算新兴技术之外,我们还旨在让读者了解设计片段库的关键考虑因素。正如我们在开始时提到的,FBDD方法的使用迄今为止已经产生了六种上市药物和许多额外的临床候选药物。尽管这些药物中的许多是使用“经典的”FBDD方法发现的,但患者已经感受到了更新的FBDD技术的影响。我们在上面提到了Sotorasib的快速发展,它在首次证明KRASG12C突变体的成药性仅8年后,于2021年获得FDA批准。与通过更传统的FBDD方法发现的最新批准药物asciminib相比,该药物于2014年进入临床试验。当人们考虑到KRAS在这之前被认为是“不可治愈的”时,这就更加令人印象深刻了。我们相信这个例子说明了新的FBDD技术和智能文库设计的新兴武库如何最终导致针对药物发现中一些最困难的目标的进展,这些目标迄今为止已被证明是棘手的。

 

END

 

01

Discovery Studio软件介绍

 

BIOVIA Discovery Studio 是一款生命科学分子模拟软件,它为研究人员提供了一个完整的工具集,用于探索蛋白质化学的细微差别并促进小分子和大分子治疗药物的发现,帮助研究人员在抗体开发过程中扮演重要角色。

 

此外,DS软件还提供了抗体自动建模,可以轻松快速地从一组轻链和重链抗体序列以及经过策划的 PDB 抗体模板数据库生成高质量的 3D 抗体全长、Fab 或 Fv 模型(也可以实现对纳米抗体和双特异性抗体的3D建模)。

 

除此之外还提供了对抗体人源化建议和预测抗体及辅料对抗体的聚集效应。这些工具可以帮助研究人员更好地理解抗体的性质,并在开发和配方过程中尽早改进这些性质,从而加快产品上市的速度和降低总成本。

 

 

02

公司介绍

 

【Discovery Studio应用案例】基于片段的药物发现——高质量分子库的重要性

 

东方科软成立于2016年10月,总部设在北京,主要服务材料科学与生命科学两大领域的用户,为其提供模拟仿真软件、技术咨询、技术培训及技术支持服务。

 

公司打造行业领域产品生态圈,不断引进国内外各种先进产品与技术,为材料和药物的设计与创新提供综合解决方案。团队专业背景覆盖材料科学、物理、化学化工、石油石化、生物医药等重要领域,能为用户提供专业、高效、快捷、精准的技术支持与服务。

 

目前,我们已服务上百家相关学术及企业用户,为他们的产品研发和创新提供了强有力的科学信息软件技术服务与产品支持!

 

相关阅读