分子指纹在虚拟筛选的应用-BIOVIA Discovery Studio-生物/化学/分子仿真分析-软服之家

虚

拟

筛

选

Discovery Studio

技术一流服务一流

原文：An overview of molecular fingerprint similarity search in virtual screening （10.1517/17460441.2016.1117070），由西班牙罗维拉·维尔吉利大学Adrià Cereto-Massagué等人在2015年发表于Methods杂志。

一

摘要

分子指纹在药物发现和虚拟筛选中已经使用了一段时间。它们因其易于使用（几乎不需要配置）以及执行子结构和相似性搜索的速度而受到欢迎，这与更复杂的方法相比具有相似的虚拟筛选性能。然而，有许多不同类型的指纹，每种都代表了分子的不同方面，这可能会极大地影响搜索性能。这篇综述集中在常用的指纹算法上，它们在虚拟筛选中的使用，以及提供这些算法的软件包和在线工具。

【关键词】分子指纹、虚拟筛选、相似性搜索、数据融合、比较

二

引言

在过去二十年中，计算技术的进步使得虚拟筛选在药物发现中得到了广泛使用。虚拟筛选是一种计算机辅助的方法，它包括筛选大量的小分子数据库以寻找生物活性分子。这使研究人员能够通过将需要实验测试的候选分子数量减少到可管理的数量，从而避免了测试成百上千种化合物的成本。

筛选可以通过几种方法或它们的组合来进行，这些方法可以分为基于结构的方法（基于将化合物与目标结合位点匹配，最常见的方法是蛋白质-配体对接）或基于配体的方法（涉及检索数据库中与已知活性分子在某些方面相似的化合物，这些方法因用于相似性评估的分子特征而大相径庭）。主要的基于配体的方法包括使用药效团（提取分子活性所需的特征）[2]，基于形状的相似性 [3]，分子指纹相似性，以及使用分子属性和来自前述任何方法的数据的机器学习 [4]。基于分子指纹的相似性搜索也用于虚拟筛选和药物发现领域之外。一个这样的例子是该方法在风味化学中的应用 [5]。

三

分子指纹的方法

相似性本身是一个主观的概念，可以以多种方式进行衡量，并且其结果也可以有多种解释方式 [6-8]。在尝试测量两种化合物之间的相似性时遇到的一个重要问题是任务的复杂性，这取决于所使用的分子表示形式的复杂性。为了使分子表示之间的比较在计算上更为简便，需要进行一定程度的简化或概括。其中最常见的形式是分子指纹图谱，它涉及将分子转换成一系列位（bit，计算机术语，表示一个二进制数的值，只能是0或者1，bit是计算机中所有数据和指令的基本构成单元），这些位随后可以在分子之间进行轻松比较。

这种比较必须以一种可以量化的方式来表达。评估两个向量之间相似性的最常用方法是欧几里得距离（Euclidean Distance）。但对于分子指纹，行业标准是谷本系数（Tanimoto coefficient，也称为 Jaccard系数，是 Cosine相似度的扩展），它由两个指纹中都设置为1的公共位数除以两个指纹中所有设置为1的位数的总和。这意味着Tanimoto系数的值总是在1和0之间，不论指纹的长度如何。这种标准化也意味着，两个具有给定Tanimoto系数的指纹实际上有多相似，在很大程度上取决于所使用的指纹类型，这使得选择一个普遍的截止标准来判断两个指纹是否相似或不相似变得不可能。然而，通过结合其他相似性系数，可以提高分子指纹的性能 [9]。几种已经与指纹一起使用的相似性和距离度量方法列在表1中。

表1 与分子指纹一起使用的一些相似系数和距离

一分子指纹种类

根据分子表示被转换成位字符串的方法，有几种类型的分子指纹。大多数方法只使用2D分子图，因此被称为2D指纹；然而，也有一些方法能够存储3D信息，尤其是药效团指纹图谱。主要方法包括基于子结构键的指纹、基于拓扑或路径的指纹，以及圆形指纹。

子结构键基指纹

根据化合物中是否存在给定结构键列表中的某些子结构或特征来设置位字符串的位。这意味着这些指纹在用于可能被结构键覆盖的分子时最有用，但如果分子不太可能包含这些结构键，它们的功能就不会被表示。它们的位数由结构键的数量决定，每个位对应于分子中单个给定特征的存在或缺失（见图1），这与其他（哈希）类型的指纹不同。一些最常用的基于子结构键的指纹是：

1. MACCS [10,11]：有两种变体，一种有960个，另一种有166个基于SMARTS模式的结构键。较短的变体最常用，因为它的长度相对较短（仅166位），但涵盖了药物发现和虚拟筛选中大多数有趣的化学特征。此外，还有几个软件包能够计算它，而较长版本则不是这样。

2. PubChem指纹 [12]：这种指纹有881个结构键，涵盖了各种不同的子结构和特征。它是PubChem数据库用于相似性搜索和邻近搜索的指纹。除了PubChem自己的代码外，它还在ChemFP [13]（尽管被认为是“实验性”的）和CDK中实现 [14,15]。

3. BCI指纹 [16]：BCI指纹可以使用不同数量的位生成，并且可以通过用户以多种方式修改，但标准子结构字典包括1052个键 [17]。BCI 指纹仅在 BCI 工具包中可用。

4. TGD [18] 和TGT指纹：这些是从2D分子图中计算出的二点和三点药效团指纹，分别由735位和13,824位组成。TGD使用七个原子特征和多达15个键的距离编码原子对描述符 [17,18]。TGT使用三个图距离分为六个距离范围来编码四个原子特征的三元组 [17]。它们都在MOE软件包中可用 [19]。

图1 假设的 10 位子结构指纹的表示形式，设置了三个位，因为它们所代表的子结构存在于分子中（圈出）。

图2 这是一个假设的10位拓扑指纹的表示，在这个例子中，它是基于线性路径的指纹，片段长度最多为5。所有从起始原子（圈出）找到的片段都显示出来，并且片段长度和相应的指纹位都已指出。存在两个位冲突，即被多个片段设置的位；这在位数量减少的指纹中很可能出现。这里仅显示了单个起始原子的片段和位；对于完整的指纹，这个过程将为分子中的每个原子执行。圆形指纹使用类似的方法，但在起始原子的半径内构建片段，而不是线性片段。

拓扑或基于路径的指纹

通过分析分子的所有片段，沿着（通常是线性的）路径直到一定数量的键，然后将这些路径进行哈希处理以创建指纹（图2）。这意味着任何分子都可以产生有意义的指纹，并且其长度可以调整。它们也可用于快速子结构搜索和过滤。这些是经过哈希处理的分子指纹，这意味着单个位不能追溯到特定的特征。一个位可能由多个不同的特征设置，这被称为“位冲突”。

1. Daylight指纹 [20]：是这类指纹中最突出的。它们由多达2048位组成，编码了通过分子的所有可能的连接路径，直到给定的长度。大多数软件包实现了这些指纹或基于它们的指纹，有时可以达到更高的位数，或使用非线性连接路径，如OpenEye的Tree分子指纹 [21]。

圆形指纹

也是哈希拓扑指纹，但它们的不同之处在于，它们不是在分子中寻找路径，而是记录每个原子到一定半径范围内的环境。因此，它们不适合子结构查询（因为相同的片段可能有不同的环境），但被广泛用于全结构相似性搜索。

1. Molprint2D [22,23]：Molprint2D编码分子连接表中每个原子的环境，这些环境由大小不一的字符串表示。这种指纹在多个软件包中可用，例如Open Babel [24] 和jCompoundMapper [25]。

2. ECFP：事实上的圆形指纹标准是扩展连接性指纹（ECFPs），基于Morgan算法[26]，专门为结构-活性建模设计 [27] 。它们表示圆形原子邻域，并产生可变长度的指纹。它们最常用于直径为4，被称为ECFP4。直径为6的ECFP6也常用，尽管一些基准测试显示两者之间的性能差异很小 [28] 此外，还有一种变体跟踪ECFP特征的频率计数，记录每个标识符在分子中出现的次数，而不是仅记录一次。这种变体通常表示为ECFC。提供这些指纹的知名软件程序包括Pipeline Pilot [29]、Chemaxon的JChem [30]、CDK [14] 和RDKit（在RDKit中，称为“Morgan指纹”） [31]。

3. FCFP（功能类指纹）：FCFP是ECFP的一种变体，它们进一步概括，不是索引环境中的特定原子，而是索引该原子的作用。因此，具有相同或相似功能的不同的原子或组不会被指纹区分。这使它们可以作为药效团指纹使用。还有一个类似于ECFP的ECFC变体的FCFC变体。所有支持ECFP指纹的主要软件包也支持这些变体。（华东理工大学唐赟教授曾在Performance Evaluation of 2D Fingerprint and 3D Shape Similarity Methods in Virtual Screening文章中指出：一些分子指纹如ECFP2和FCFP4在相似性搜索上得到的结果药由于3D形状相似性搜索的结；并且基于配体虚拟筛选方法在速度和命中化合物富集率上均要优于基于结构的虚拟筛选方法）。

混合指纹

还有一些混合指纹，它们使用不同的方法组合相同的位字符串位。以下是一些常见的属于这一类别的指纹：

1. UNITY 2D [32]：这是一个基于结构键和连接路径片段的988位长指纹。

2. MP-MFP [33]：MP-MFP是一个171位的指纹，其中110位由结构键设置，61位由属性描述符设置。

药效团指纹也常用。药效团代表了分子对给定目标产生活性所需的相关特征和相互作用。药效团指纹通常对分子呈现的特征列表中的信息进行编码，类似于基于子结构键的指纹，但同时考虑这些特征之间的距离，通常使用一系列距离范围进行分类。通过这种方式，3D信息可以被编码到指纹中 [34]。

最后，还有一些尝试完全不同方法的其他类型的指纹。例如，LINGO [35]和SMIfp [36]是基于文本的指纹，它们是基于分子的标准SMILES [37] 计算的。蛋白质-配体相互作用指纹（PLIF），顾名思义，编码有关蛋白质-配体相互作用的信息，如氢键、离子相互作用和与起源残基的表面接触 [19]。结构相互作用指纹（SIFt）也是这类指纹之一[38]。

一般来说，具有较长比特字符串的指纹在相似性搜索过程中表现更好，因为它们包含的存储信息量增加（由于哈希指纹的比特冲突减少）[39]。

二用于基于指纹的虚拟筛选软件

有许多软件包可以用于基于指纹的虚拟筛选，从包含指纹功能的整个药物发现套件到专门处理指纹和相似性搜索的软件库或工具。每个软件包支持不同的指纹集合，它们中的大多数实现了其他任何包中不存在的指纹。然而，大多数软件包中都可以找到最常用的指纹算法。以下是进行基于指纹相似性的配体虚拟筛选时使用的主软件包列表，排名不分先后：

1. BIOVIA Discovery Studio软件 [29]：它可以计算各种分子指纹，包括两种MACCS版本、MDL、ECFP及其多种变体。位于Small Ligand面板下的Calculate Molecular Properties功能。

2. OEChem TK：这个OpenEye商业工具包 [21] 能够生成166位MACCS、LINGO、圆形、路径（类似Daylight）和树形（类似Daylight但具有非线性、“树”片段）指纹。它提供了C++、Java、Python和C#的接口。

3. ChemAxon的JChem [30]：这是一个Java库，提供了对几种哈希指纹、所有变体的ECFP指纹（ECFC、FCFP、FCFC）和药效团指纹的访问。ChemAxon还提供了.NET包，并且可以通过cinfony [40] 在Python中使用。

4. Open Babel [24,41]：这是一个免费且开源的化学信息学工具包，实现了MOLPRINT2D、166位MACCS、类似Daylight的指纹（FP2）以及两个结构键指纹，分别有55（FP3）和307位。它可以从C++、Java、Python、C#和Perl中使用。

5. RDKit [31]：这也是一个免费且开源的化学信息学工具包，提供了对几种指纹的访问：166位MACCS、“拓扑”（类似Daylight）、“原子对”（基于分子中每对原子的原子环境和最短路径分离 [42]）、“Morgan”（ECFP及其变体）、“扭转”（基于拓扑扭转描述符 [43]）和“分层”（一种旨在使指纹查询更直接的实验性拓扑指纹）。它可以从C++、Python、Java和C#中使用。

6. CDK [14,15,44]：这是另一个免费且开源的工具包，具有几种指纹，最引人注目的是ECFP、LINGO、类似Daylight的指纹、166-MACCS、PubChem和其他结构键指纹，如E-State[45]和Klekota–Roth [46]。它是一个Java库，但可以通过cinfony [40]在常规Python中使用。

7. Indigo [47]：这是另一个免费且开源的化学信息学工具包，提供几种哈希指纹及其组合。它可以从C++、Java、Python和C#中使用。

8. Cinfony [40,48]：这不是一个工具包本身，也不实现任何指纹，但它通过Python中的公共API为用户提供了对几个工具包（Open Babel、RDKit、CDK、JChem和Indigo）的访问，并在一定程度上在Jython（JVM）和IronPython（.NET）中使用。

9. ChemFP [13]：这是一个可以作为后端数据库使用的工具，与Open Babel、RDKit或OEChem一起使用，从而支持它们的大多数指纹，并在此之上实现了166位MACCS和类似PubChem的指纹。但ChemFP的特别之处在于它能够以标准文件格式（FPS）存储指纹，然后执行高速的Tanimoto相似性搜索。它提供了Python库和命令行工具。

10. jCompoundMapper [25,51]：这是一个开源命令行工具和化学指纹库，支持许多指纹类型，包括MOLPRINT2D、原子对和药效团指纹等。它还提供几种机器学习工具，并使用CDK。

11. Tripos的SYBYL-X套件（商业软件，现已不再更新，意味着SYBYL软件退出历史舞台） [32]：这是一个分子建模套件，包括用于相似性搜索的UNITY 2D指纹。

12. DecoyFinder [52,53]：DecoyFinder是一个图形工具，帮助为虚拟筛选验证找到诱饵集。它使用MACCS指纹和分子描述符来找到诱饵分子。

13. FLAP [54]（配体和蛋白质的指纹）：FLAP是一个工具，为使用GRID分子交互场（MIFs）比较分子提供共同的参考框架。指纹由药效团特征的四元组特征定义，可用于配体-配体、配体-受体和受体-受体比较。

14. MayaChemTools是一组免费的Perl脚本、模块和类，支持日常计算发现需求 [55]。脚本集合可以计算几种分子指纹，包括ECFP、MACCS、基于路径的指纹等；它也可直接用于指纹相似性搜索。

三基于指纹的在线虚拟筛选工具

与提供指纹功能的大量软件包相比，提供此类服务的在线服务数量要少得多，主要包含使用某些指纹进行相似性搜索选项的数据库。以下是最有趣服务的简要列举：

1. PubChem [56] 提供了一个快速的化学结构相似性搜索工具。任何小分子都可用作查询，可以选择一个Tanimoto系数阈值，超过该阈值的分子将被视为足够相似。用于这种相似性搜索的指纹是PubChem指纹 [12]。

2. ChemSpider [57–59] 也支持使用Tanimoto（和其他度量）阈值的相似性搜索。它使用的指纹是由GGA的BINGO数据库卡提供计算的，该数据库使用Indigo工具包 [49]。

3. ZINC数据库 [60–62] 也支持相似性搜索。使用的指纹是来自JChem的基于路径的ChemAxon指纹 [30,61]。它使用相同的指纹生成具有给定相似性截止的分子簇，这些簇保证了分子多样性和化学空间覆盖。

4. ZINC的多指纹浏览器 [63,64] 是一个工具，可以快速识别ZINC数据库 [60] 中商业可用化合物中的近亲。浏览器检索由四种不同指纹定义的多维化学空间中的最近邻（指纹 = 由分子结构和属性的几个数值描述符组成的向量），每种指纹以不同的方式表示相关的结构和药效团特征：sFP（子结构指纹）、ECFP4（扩展连接指纹）、MQN（分子量子数）和SMIfp（SMILES指纹）。使用城市街区距离（city-block distance，CBD；见表1）计算距离，根据Awale等人[63]的说法，这是一种相似性度量，其性能与Tanimoto相似性一样好。

四

常规基于指纹的虚拟筛选场景

要进行基于指纹相似性的虚拟筛选，需要以下事项：

1. 至少一个已知的活性分子，它将作为参考分子。

2. 一个包含潜在活性分子的分子数据库。

3. 能够生成和比较指纹的软件。

选定参考分子后，下一步是选择最合适的指纹。选择通常受所使用的软件中可用选项的限制。最合适的选项也主要取决于参考分子，因为指纹应该能够适当地表示参考分子（对于哈希指纹通常不是问题）。还需要考虑数据库和可用指纹是否考虑了立体化学、异构体形式以及参考分子和数据库中待筛选分子的构象。最好使用对立体化学敏感的方法来筛选对立体化学敏感的数据库。存在构象使得可以使用依赖于它们的指纹 [34]。研究分子的异构性也应该被考虑在内，因为同一分子的不同异构体可能具有非常不同的指纹。使用选定的算法，将为数据库中的每个分子和参考计算指纹，然后计算参考分子与每个其他分子之间的相似性系数。之后，分子可以根据相似性系数按降序排列。排名靠前的分子预计会表现出与参考分子类似的活性。

五

各种方法比较

指纹相似性搜索与其他虚拟筛选方法的比较

在Tresadern等人 [65] 的比较中，ECFP6指纹与其他几种虚拟筛选方法进行了比较：特征树、拓扑异构体、ROCS形状Tanimoto、EON静电Tanimoto、OpenEye ComboScore（形状Tanimoto和颜色得分的组合）和Cresset-Fieldscreen。除了特征树之外，这些都是3D方法，需要的计算时间远远超过指纹。结果正如预期：在4个查询中的3个中，ECFP6指纹的表现最弱，尽管在剩下的查询中表现出了最高的表现之一。然而，在指纹表现不佳的3个查询中，所有方法都显示出非常相似的性能，这可能意味着方法的性能取决于所选择的查询。

在McGaughey等人 [66] 的不同比较中，Daylight指纹被测试与其他许多虚拟筛选方法相比，包括蛋白质-配体对接。Daylight指纹的表现超过了大多数其他方法。作者得出结论，“通过EF测量，2D相似性方法（TOPOSIM、Daylight）在应用于多样化数据库时，在先导跃迁方面表现良好[…]。人们可能会问，2D相似性方法怎么可能在先导跃迁方面几乎和3D方法表现得一样好。”他们还指出，Daylight指纹的性能对路径长度非常敏感，而默认设置（最小路径长度为0，最大为7）太容易被超越，使它们成为2D相似性的差标准。

在另一项比较 [67] 中，几种指纹（Open Babel FP2、BCI、MACCS、Daylight和MOLPRINT2D）与基于3D分子形状的方法（ESHAPE3D、ROCS、PARAFIT、SHAEP和USR）进行了比较。鉴于结果，作者指出“总体而言，我们发现对于许多DUD目标，基于2D指纹的方法比基于3D形状的方法在虚拟筛选性能上更好”。这表明3D方法并不总是比简单的指纹相似性搜索表现得更好。然而，在将指纹相似性搜索与其他虚拟筛选方法进行比较时，使用指纹有几个优点：

1. 它需要最少的设置和配置。一些指纹可以在几种方式上进行微调，但这仍然需要的工作量远少于创建药效团或选择和准备蛋白质-配体对接的结合位点。

2. 大多数常用的指纹基于2D结构计算。因此，对于这些指纹，不需要像形状相似性或对接方法那样生成构象。这也意味着在筛选中大部分会缺少3D信息，尽管这可能根本不会影响性能 [67]。

3. 它比其他方法对CPU的要求低。这意味着它可以在普通计算机上进行，而且用同样的硬件，它比其他方法，特别是蛋白质-配体对接，要快得多。

尽管如此，基于指纹的相似性搜索也有一些用户应该注意的陷阱：

1. 活性悬崖（Activity cliffs）：活性悬崖被定义为相似性极高但活性差异很大的化合物对；因此，它们的存在可能对相似性搜索的性能产生负面影响。活性悬崖取决于数据集和用于计算相似性的描述符，所以不同的方法将在同一数据集中显示出不同的活性悬崖，找到最佳解决方案可能是棘手的（活性悬崖也是QSAR的陷阱） [68]。

2. 描述符的选择：相似性搜索的性能在很大程度上取决于用于计算相似性的描述符，而在指纹的情况下，不同的指纹可能会产生非常不同的性能结果 [69]。获得的结果也可能因算法实现的不同而有所变化。

3. 参考分子：对于相似性搜索，至少需要一个已知的活性分子作为参考分子。然而，通常并非参考分子的所有部分都同样与整体活性相关。如果不考虑这种冗余，可能会得到在与参考分子无关的方面相似的非活性分子，其排名与真正的活性分子相似甚至更高，而真正的活性分子仅在与活性相关的方面与参考分子相似。基于对参考化合物的了解，选择合适的指纹可能有助于缓解这个问题。

4. 构象覆盖：当使用3D指纹时，每个分子的构象应充分覆盖其构象空间，这需要测试和优化几个参数 [70]。

此外，还有许多其他陷阱，它们不特定于相似性搜索，而是几乎所有虚拟筛选方法都普遍存在的，正如Scior等人 [70] 所详细解释的。

六

结论

分子指纹有很多种类型，因此人们也对了解哪些指纹表现更好感兴趣。有开源平台可以对配体基础虚拟筛选的指纹进行基准测试，这些平台已经用14种2D指纹进行了测试 [28]。研究发现，所有指纹的整体性能相似，但是不同目标之间的性能差异大于同一目标内不同指纹之间的差异。通过对指纹按性能进行排名，这些研究发现，在使用早期识别评估方法时，ECFP0（直径为0，仅将单个原子作为环境）和166位MACCS表现最差。使用相同的方法，圆形指纹排名更高，而拓扑扭转指纹无论评估方法如何，始终排名靠前。

当前关于分子指纹相似性搜索的趋势似乎是通过数据融合结合不同的方法 [71]（无论是结合不同的指纹 [63,72,73] 还是将指纹与其他虚拟筛选方法 [73,74] 结合，特别是基于结构的方法 [75]）。这种方法的优势在于，通过结合捕捉不同化学信息的方法，排名最高的命中将是那些被几种方法高度评价的命中，使它们更加相关，并减少了单一方法可能引入的伪影数量。这可能导致在数据融合中最优搜索和方法组合，提高虚拟筛选性能。

E n d