一种基于模型稳健性的定量结构-活性关系模型构建方法技术

技术编号:36112459 阅读:12 留言:0更新日期:2022-12-28 14:15
一种基于模型稳健性的定量结构

【技术实现步骤摘要】
一种基于模型稳健性的定量结构

活性关系模型构建方法


[0001]本专利技术涉及定量结构

活性关系(Quantitative Structure

Activity Relationship,以下简称:QSAR)模型的构建方法,具体涉及以化合物肝脏代谢清除率预测模型为对象的一种基于模型稳健性的QSAR局部模型及其一致性模型的构建方法,属于化学信息学和生物信息学领域。
【技术背景】
[0002]代谢清除率是指在单位时间内机体能将多少单位容积体液中的药物清除,是反映药物自体内消除的重要参数之一,也是药物研究中非常重要的一个药代动力学参数。通过体外数据预测药物的体内代谢清除率,并进一步测算出药物的生物利用度和半衰期,对于临床上确定第一次给药剂量和频次具有非常重要的参考价值。肝脏是药物的主要代谢器官,肝脏的代谢清除率模型目前已成功用于药物体内肝代谢清除的研究,目前基于大鼠肝脏、小鼠肝脏和人肝微粒体的肝脏代谢清除率模型均有报道。建立准确的肝脏代谢清除率预测模型在药物设计、药效学和药物安全性方面都具有重要意义。
[0003]代谢清除率模型本质上是研究药物分子(化合物)的微观结构与其代谢清除率(化合物的宏观活性)之间的关系。QSAR技术可以通过已知化合物的微观分子结构参数(如分子描述符、分子指纹等)与其宏观活性之间的关系,采用数理统计、机器学习等方法构建化合物活性与结构之间的关系模型。在不进行生化实验的情况下,QSAR技术就可以使用计算机模型对处于虚拟设计阶段或新合成化合物的生物活性进行快速评估,且能够从分子层面上揭示化合物的微观结构与其宏观活性之间内在的联系,能够为设计具有化学家期望性质的化合物提供理论指导。目前,QSAR技术在计算机药物辅助设计领域中发挥了越来越重要的作用,有效减小了药物开发过程中因大量的动物实验和临床前实验带来的时间和金钱消耗,提高了药物开发效率、节省了开发经费。
[0004]在应用QSAR技术对药物肝脏清除率的预测研究中,随着时间的发展,积累的实验数据越来越多,能够用于QSAR建模研究的数据越来越丰富,但也越来越庞杂。虽然数据的丰富使研究者能够建立包含更加全面信息的QSAR模型,模型的适用范围也会变大,但有具有类似肝脏代谢清除率特性的化合物其呈现此类特性的化学机理并不完全相同,面对大量庞杂的建模数据,建立一个稳健性强、预测性能良好,且适用范围广的肝脏代谢清除率QSAR模型已经变得越来越困难。
[0005]根据OECD原则(国际经合组织为规范QSAR建模而确立的QSAR建模时需要遵守的基本原则)可知,对模型拟合、稳健性和预测能力的合适的测度(Appropriate measures of goodness

of

fit,robustness and predictivity),是模型有效性的重要保证,只有通过内部验证和外部验证的QSAR模型才能应用于实践。对于模型内部验证,一个可用的QSAR模型一般要求其对训练集化合物的拟合系数R2>0.6,交叉验证系数R
2cv
>0.5;对于模型的外部验证,一般要求其对测试数据集化合物的验证系数R
T2
>0.6。而模型良好的稳健性(R
2cv
的值越大,越接近1,模型的稳健性越好)是建立
规范的、性能良好的QSAR模型的必要条件。提高模型的R
2cv
值,有利于建立更可靠的QSAR模型。
[0006]目前,QSAR模型的建立主要有全局建模(对于一个建模数据集,所建立的QSAR模型使用该数据集内的全部化合物,只建立一个模型)、局部建模(对于一个建模数据集,分别使用部分建模数据建立多个局部模型)及一致性建模方式(将建立好的若干个存在差异的QSAR子模型进行组合,构成一致性模型,一致性模型的输出由各子模型的输出组合而成)。局部建模仅仅使用部分建模数据建立局部模型,它能够通过一定的数据选择方法克服全局建模方法难以面对庞杂数据的缺点,因此受到了广泛关注。目前,基于活性作用机理的局部建模方法和基于化学结构相似性的局部建模方法(如k临近模型(kNN),Lazy learning方法、ALL

QSAR)被逐步开发出来。
[0007]虽然这些局部建模方法能在一定程度上提高模型的预测性能,但仍然存在一定的局限性。基于活性作用机理的局部模型在建立前需要先将建模数据集按照化合物产生此类活性的机理不同分成若干组,然后使用每组数据分别建立局部模型。但由于化学机理的复杂性,人们对新合成或虚拟设计阶段的化合物产生此类活性的机理可能并不明确,因此模型应用时,人们难以选择合适的局部模型对待预测化合物进行活性预测,这会导致模型应用困难。基于化学结构相似性的局部模型在模型建立前先通过化合物之间化学结构的相似性将建模数据集分为结构相似的若干组,然后使用每组数据分别建立局部模型。目前局部模型中化合物化学结构的相似性是通过表征化合物结构的分子描述符之间距离信息(如欧式距离、马氏距离、测地距离等)来度量的,选择不同的分子描述符和不同的相似性度量方法会得到不同的局部建模数据集,进而获得不同的局部模型。保证模型的交叉验证系数R
2cv
>0.5,是QSAR模型能够通过有效性验证的前提条件,而目前的局部建模技术所采用的基于化合物结构相似性的数据划分方法本质上是一种无监督的数据划分方法,并没有保证模型交叉验证系数R
2cv
>0.5的有效措施。
[0008]一致性建模是将具有不同结构的子模型组合在一起构成的,它的主要思路是将若干个弱学习器组合为一个强学习器,从而达到提高模型性能的目的。一致性模型能更加全面的描述整个数据集中化合物的特征,可以减小建模数据集中结构差异大的化合物对模型的影响,能够得到更全面的建模数据集整体分子结构信息,它具有更强的稳健性、更好的预测能力和更广的应用范围,可以有效提高模型的预测精度和可靠性。
[0009]一个稳健性强、预测性能良好,且应用范围广的QSAR模型是其可靠的用于预测肝脏代谢清除率的基础。本专利技术提出的基于模型稳健性的局部建模方法,通过优化算法在建模数据集中选择合适的建模数据和描述符,以及合适的模型超参数,构建交叉验证系数高的QSAR局部模型,可以保证局部模型的有效性,促进模型性能提高。应用一致性建模方法在各局部模型应用域的限制下将建立的局部模型组合成一致性模型,可以进步一提高模型的性能,并扩大其应用范围。

技术实现思路

[0010]本专利技术针对化合物肝脏体谢清除率的QSAR预测模型提供一种基于模型稳健性的定量结构

活性关系局部模型建模及其一致性模型建立的方法。
[0011]本专利技术需要解决的技术问题是:
joint optimization QSAR model of fathead minnow acute toxicity ba本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型稳健性的定量结构

活性关系模型构建方法,其特征在于:对于选定的肝脏代谢清除率建模数据集,利用支持向量机回归建立QSAR局部模型,通过粒子群优化算法,以局部模型的五折交叉验证系数的倒数取得最小值为优化目标,对建模数据集中的化合物、表征化合物结构参数的分子描述符和模型的超参数进行联合选择,从而建立稳健性强、可靠性好的QSAR局部模型;采用基于模型应用域限制的局部模型一致性建模方法,在各局部模型应用域的限制下将建立的多个局部模型组合成一致性模型,提高模型的预测性能,扩大模型的应用范围。2.根据权利要求1所述的一种基于模型稳健性的定量结构

活性关系模型构建方法,其特征在于:该方法包括以下具体步骤:步骤1):选定建立肝脏代谢清除率QSAR模型的化合物集合,用描述符计算软件计算化合物的描述符,构建建模数据集;步骤2):描述符清洗;步骤3):建模数据集分割;步骤4):关键描述符选择;步骤5):基于模型稳健性的局部模型构建;步骤6):各局部模型的应用域分析;步骤7):各局部模型的有效性验证,计算通过有效性验证的各局部模型的覆盖率;步骤8):一致性模型构建;步骤9):一致性模型预测性能评估,一致性模型与局部模型和传统全局模型的比分析。3.根据权利要求2所述的一种基于模型稳健性的定量结构

活性关系模型构建方法,其特征在于:所述步骤5)需要建立多个局部模型,为了获得结...

【专利技术属性】
技术研发人员:王玉昆王佳音王长煜王欣宇
申请(专利权)人:辽宁科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1