【COSMOlogic应用实例】COSMO-RS用于药物和农药的水溶解度预测

关注泰科科技   做模拟不迷路

 

 

01

摘要

COSMO-Rsol方法最初是基于量子化学计算来预测液体-液体和液体-蒸汽平衡常数的,通过添加一个启发式的吉布斯自由能表达式,已经扩展到固体化合物。通过这一补充,COSMO-Rsol现在能够先验地预测各种典型中性药物和农药化合物的水溶性。启发式表达式中只有三个参数被拟合到150个类药物化合物的数据集上。在这些数据上,均方根偏差为0.66对数单位。后来,该模型在107种农药上进行了测试,这些农药是根据两个实验数据源并与独立的HQSAR模型进行交叉检验而严格选择的。在没有对结构极其多样化的农药进行任何调整的情况下,该数据集的均方根值为0.61对数单位。这一结果验证了扩展COSMO-RS预测几乎任意结构类药物和农药的水溶性的能力。新方法是COSMO-Rsol。

 

 

02

引言

水溶解度(Saq)是生命科学中被认为是潜在制剂的所有化学化合物的一个关键性质,例如药物或农药。Saq在很大程度上决定了化合物在体内的可用性,以及释放到环境中的化合物的环境行为。

 

由于它的重要性,人们一直在尝试寻找可靠的方法来预测新化合物的aq15,因为这些方法在寻找有前途的新制剂候选物的过程中具有很大的价值。但是,在用于表征药剂的吸收、分布、代谢和环境命运(ADME)的不同性质中,aq是最难预测的目标之一。

 

COSMO-RS类型的成对相互作用的表面段热力学在计算化学中是不寻常的,但它已经被化学工程师成功地使用了30多年,因为它是UNIFAC和UNIQUAC等模型的基础。如果我们接受,至少对于电子要求高的分子,好的计算的第一步必须是静电的量子化学(QC)计算,这可能是在力场环境中经常使用的HF/6-31-G计算,或者是COSMO-RS的DFT/SVP/COSMO计算,那么两种方法之间的关系就变得更加清晰了。MD/MC的第二步是将真正的量子化学系统还原为成对相互作用的球体的集合,具有从初始QC步骤导出的某些相互作用参数。相反,在COSMO-RS中,我们用表面块表示系统,相互作用参数来自QC。这两种方法都需要一个成对的交互功能。在第一种情况下,该泛函通常是力场类型,而在COSMO-Rsol中,它由非常简单的静电失配和氢键相互作用公式表示。我们应该意识到,在任何一种情况下,这些相互作用函数都只是相互作用的真实物理的近似值。

 

在这里,对所有化合物执行DFT/COSMO计算(有关这些计算的详细信息,请参阅计算细节部分),然后使用COSMOtherm程序进行COSMO-Rsol计算。

 

训练集和测试集中所有化合物的分子几何结构已被描绘为二维结构,随后转换为三维几何结构。为了获得每个化合物的最低能量构象,分子动力学(MD)计算已经用分子建模程序包Alchemy完成。

 

利用优化后的几何图形,利用Turbomole程序包,利用B-P密度泛函理论和SVP质量基集,在从头算QC水平上计算了分子表面的COSMO极化电荷密度σ。所有COSMO-RS的计算都是使用COSMOtherm程序完成的。

 

对于每个化合物,在COSMO-RS计算中只使用turbomole-bp /SVP/COSMO QC水平上能量最低的一种构象,训练数据集中的水杨酸、琥珀酸、2-乙酰氧基苯甲酸和丙氨酸除外,在COSMO- RS中必须考虑两种相关构象。

 

 

03

结论与讨论

150种化合物的计算和实验数据如图1所示。相应的表汇编了所有实验和计算数据,连同描述符可作为补充材料。散点图清楚地显示了一个相当均匀的误差分布。

【COSMOlogic应用实例】COSMO-RS用于药物和农药的水溶解度预测

COSMO-Rsol和HQSAR模型在该农药数据集上的结果见图2。平均符号误差仅为0.06,表明模型具有较高的可移植性。HQSAR方法的均方根=0.72,平均无符号误差为0.59log-unit,这与交叉验证程序的结果一致。因此,尽管HQSAR方法是专门在同一来源的大型训练集上进行训练的,但它在测试集上的预测精度明显低于纯预测的COSMO-Rsol方法,后者以前从未在农药上进行过训练。值得注意的是,COSMO-Rsol的三个参数的改装只产生0.01对数单位的均方根降低,这是绝对微不足道的。这也表明PhysProp数据的质量更好。COSMO-Rsol方法的两个最大异常值是两种化学结构极其复杂的非常大的农药。两者都非常相似,结构的相对溶解度被正确预测(见图2)。两种模型在107种农药上的误差分布如图3所示。COSMO-Rsol清楚地显示出几乎高斯误差分布,而周期为0.6log的奇怪振荡。单位出现在HQSAR模型的误差分布中。目前,我们还没有解释hqsar模型的奇异误差分布。

【COSMOlogic应用实例】COSMO-RS用于药物和农药的水溶解度预测

 

 

04

总结与展望

本文介绍了COSMO-Rsol方法作为一种预测固体和液体类药物水溶液溶解度的新方法。虽然不是完全从头算,但与目前所有可用的水溶解度预测方法相比,COSMO-Rsol具有相当可靠的物理化学基础。这使得COSMO-Rsol在用于其他方法的开发和参数化的数据集上比其他最先进的方法实现更好的水溶解度预测。即使在结构要求最高和多样化的农药数据集上,COSMO-Rsol也取得了非常令人满意的预测准确性。

 

COSMO-Rsol在目前所考虑的数据集上的平均精度约为0.65对数单位(rms)。有强烈的迹象表明,这种误差的重要部分是实验误差。因此,似乎有理由假设COSMO-Rsol方法的内在预测误差为0.5log-单位。考虑到COSMO-RS对液体化合物的平均精度为0.3log-单位,以及对δGfus的估计所涉及的附加近似,COSMO-Rsol的固有误差不太可能远小于0.5log-单位。为了明确评估该方法的内在预测误差,需要大量高质量的实验数据。

 

值得注意的是,与所有其他水溶解度预测方法相比,COSMO-Rsol能够预测几乎任意溶剂和溶剂混合物中的溶解度,因为COSMO-Rsol能够预测化合物X在任意液体中的化学势。一篇即将发表的论文将给出COSMO-Rsol在非水溶解度上的验证。这种新方法的另一个优点是,基于用于水溶解度的相同COSMO计算,许多其他物理化学性质,如分配系数、蒸汽压、亨利常数等,都可以很容易地通过COSMO-RS得到。甚至生理分区行为也可以基于COSMO-Rsol进行计算。

 

与所有其他溶解度预测方法一样,COSMO-Rsol仅限于纯、中性、非离子化合物的溶解度。对于已知pK值的化合物,可以很容易地进行解离或质子化校正。COSMO-RS目前还不能常规地同时预测pK值,尽管已经报道了第一个有希望的结果。由于COSMO-Rsol具有良好的物理基础,只要能够收集到实验溶解度良好的数据集,就可以通过合理的努力将该方法推广到共晶体甚至盐。正在计划朝着这个方向迈出的第一步。

 

目前,与许多其他溶解度预测方法相比,COSMO-Rsol方法的最大缺点是在1 ghz PC处理器上需要大约2个CPU小时的时间。在合理的周转时间内,这将方法限制在1000个化合物的数据集上,并禁止在高通量筛选(HTS)中应用,在HTS中,通常必须在几天内处理数万或数十万个化合物。一种略近似的方法(COSMOfrag)正在开发中,该方法通过对片段的相似性分析,从约10,000个预计算的类药物结构COSMO文件的大型数据库中导出所需的新化合物的σ-剖面。该方法将COSMO-Rsol的计算时间缩短至秒级,并有望在精度上有较小的损失。

 

文章详情:DOI 10.1002/jcc.1168

【COSMOlogic应用实例】COSMO-RS用于药物和农药的水溶解度预测

北京泰科博思科技有限公司是COSMOtherm官方指定代理商,有关软件详情或者技术支持请咨询北京泰科。

 

 

 

05

北京泰科涉及行业

材料研发

基于BIOVIA Materials Studio材料设计平台,提供涉及电池、航空航天、国防军工、建筑、涂料涂层等多领域材料研发软件及综合解决方案。

 

药物研发

针对药物设计、药物研发等提供基于Discovery Studio、COSMOLOGIC等软件的ADME、构象比对、溶剂筛选、结晶、成盐、共晶筛选、稳定性、溶解度pKa、分配系数等性质的模拟预测软件及方案。

 

化工设计

面向精细化工、新能源、石油化工等领域提供精馏萃取催化剂设计、热力学性质(溶解度、粘度等)、提纯表面处理吸附等性质模拟软件平台及解决方案。

 

数据挖掘

基于Pipeline Pilot提供数据搜集、数据清洗、特征工程、机器学习、流程设计等多种数据挖掘综合解决方案。

 

一体化实验室

• 实验室信息管理

• 电子实验记录本/SOP执行

• 试剂耗材管理

• 仪器管理

• 数据管理

 

 

06

部分产品

量化材料类

• Crystal: 固体化学和物理性质计算软件

• Diamond: 晶体结构数据可视化分析

• Endeavour:强大的求解晶体结构的软件

• Molpro: 高精度量化软件

• Molcas: 多参考态量软件

• Turbomole: 快速稳定量化软件

• TeraChem:GPU上运行的量化计算软件

• Spartan: 分子计算建模软件

 

数据分析类

• GelComparll: 凝胶电泳图谱分析软件

• SimaPro: 生命周期评估软件

• Unscrambler: 完整多变量数据分析和实验设计软件      

• CSDS: 剑桥晶体结构数据库

• lCDD: 国际衍射数据中心数据库

• ICSD: 无机晶体结构数据库

• Pearson’s CD: 晶体数据库

 

 

07

公司简介

北京泰科博思科技有限公司(Beijing Tech-Box S&T Co. Ltd.)成立于2007年,是国内领先的分子模拟及虚拟仿真综合解决方案提供商。

 

北京泰科博思科技有限公司与国际领先的模拟软件厂商、开发团队深入合作,为高校、科研院所和企业在材料、化工、药物、生命科学、环境、人工智能及数据挖掘、虚拟仿真教学等领域提供专业的整体解决方案。用户根据需要在我们的平台上高效的进行各种模拟实验,指导实际的生产设计。

 

北京泰科博思科技有限公司拥有一支一流的技术服务团队和资深的专家咨询团队,以客户真正需求出发,服务客户,为客户创造价值。我们秉承“职业、敬业、担当、拼搏、合作”的企业精神,致力于用国际领先的软件产品和专业全面的技术支持服务,成为客户可信赖的合作伙伴。

2023年第8期应用实例赏析-01

 

 

 

相关软件
BIOVIA COSMOlogic是用于预测化工热力学性质的软件,适用于有机溶液、离子溶液、高分子和药物分子、溶剂筛选、离子电池等领域,能非常快速、精确的预测出溶解度、闪点、粘度、亨利常数等众多性质。
相关阅读