基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法技术

技术编号:4175215 阅读:198 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法,适用于根据有机小分子结构信息对该化合物进行计算致癌毒性评价和虚拟筛选。首先对分子结构分子采用相关力场进行优化并进行电荷计算,对初始训练集中的化合物进行复杂抽样用于训练子集的产生,并根据复杂抽样算法结果固定描述符的组成计算分子中的各种相关描述符;然后使用基于相关矩阵分析和因子分析方法优化描述符池;最后使用改进的决策森林方法对训练集分子的致癌毒性数据和及其相应化学表征进行数据挖掘,得到分类的预测可信区间,致癌毒性预测模型和判断规则。该方法在高通量虚拟筛选和计算致癌毒性评价中具有良好应用前景。

A method for predicting carcinogenic toxicity of compounds based on complex sampling and improved decision forest algorithm

The invention relates to a compound based on complex sampling and improved decision forest algorithm carcinogenic toxicity prediction method is suitable for calculation according to the carcinogenic toxicity assessment and virtual screening of the compounds of small organic molecular structure information. The molecular structure of the molecular force field optimization and charge calculation, the initial training set of compounds for complex sample training subset, and according to the results of a variety of related complex sampling algorithm to describe the molecular character in a fixed descriptor; then using the correlation matrix analysis and factor analysis method to optimize the descriptor pool based on finally, using decision forest method; improved data mining and data on carcinogenic chemical characterization and the corresponding training set molecules, prediction confidence interval classification, prediction model and carcinogenic toxicity judgment rule. This method has a good prospect in high throughput virtual screening and computational toxicity evaluation.

【技术实现步骤摘要】

本专利技术涉及一种基于复杂抽样和改进决策森林算法的化合物致癌 毒性预测计算方法,适用于根据有机化合物分子结构信息对该化合物 进行虚拟致癌毒性评价和筛选。
技术介绍
毒性问题是后期药物研发失败的 一个重要的因素。化合物的致癌 毒性指化合物诱发人体内滋生恶性肿瘤或良性肿瘤的一种远期性作 用。啮齿类生物测试是目前采用的主要致癌毒性实验方法。然而,该方法存在以下问题(1 )测试费用高(平均测试费用超过两百万美元); (2)耗时(3至5年);(3 )伦理考虑和公众压力——在研发和测试 中减少或不再使用动物。由于计算毒性预测具有低损耗、高通量、虚 拟现实等特点,该领域近年已经成为化学,毒理学,生物信息学,化 学信息学,药物学,统计学等学科交叉中的一个研究热点(Van de Waterbeemd and Gifford, 2003 )。与此同时,长期以来生物测试累积的 大量实验数据也为小分子致癌毒性预测打下了基础(Yu and Adedoyin, 2003 )。致癌化合物根据其分子致癌机制主要分为两大类(Choy,2001 ): 基因毒性致癌物(Genotoxic carcinogens )和非基因毒性致癌物 (Non-genotoxic carcinogens )。前者是通过自身或其活性代谢物与DNA 的直接相互作用引起正常细胞转变成癌细胞,经常是跨种属,跨性别, 多靶标组织的广泛致癌物。后者则是在癌变初期通过各种不同的机制, 如与特定的细胞内受体结合,引起下游细胞分裂异常,经常是在一个种属, 一种性别,特定的组织中表现其致癌性。基因致癌物由于其机制相对简单,体外可以采用Sa/附o"eZ/a 0^/z/wwn'ww细菌实-睑(即Ames 检验)间接帮助致癌性预测,因而对其进行计算毒性预测也相对容易; 非基因毒性致癌物则由于牵涉到复杂的生物化学机制网络,如转运, 代谢,DNA诱导等等,这是目前计算毒性预测方面的一个重点。近年来已经有许多不同的计算毒性预测工具问世,依其原理主要 可以分为基于统计和基于专家系统的模型(Butina, et al, 2002 )。前者 通过计算各种理化描述符,应用多种统计和模式识别方法,对这些表 征小分子化学结构的描述符与毒理属性进行拟合,即在一系列化合物 的结构和毒性效应之间推导建立数学意义上的结构与毒性关系(Greene, 2002 ),代表软件为TOPKAT, MCASE, ToxScope, ToxFilter 等等。后者利用根据已知毒性机制建立的规则,把一个分子的某个特 殊片段或结构与一个特殊的毒理事件联系在一起,当对新分子进行预 测的时候,从存储规则的规则库中调出与该分子相关的规则并依此进 行毒理属性的判断,代表软件为DEREK, Ocologic, HazardExpert等等。 尽管通过计算进行毒性预测已经成为一个非常流行的方法,当前的商 业软件由于其预测准确度尚显不足还不能在无监督情况下使用——近 来美国NTP专门对上述的商业程序在致癌毒性的预测能力方面先后进 行了两次专项测试(Toivonen, et al, 2003 ),所选化合物都严格按照NTP 啮齿类动物致癌实验协议在被预测后进行实验测定,结果发现,上述 软件在致癌毒性预测能力方面均十分有限,以整体准确度作为性能指 标衡量时,仅对49~59%的化合物给出正确的预测,说明这些模型在致 癌预测性能方面亟待提高。除商业软件包外,文献中也报道了 一些致癌毒性预测的方法(Vendrame,eta1,2001 )。总体来说,这些模型基本上只采用小样本的同系列化合物,即毒性机制相同或相近的化合物,进行模型的建立, 以获得较高的预测正确率,实际上对于药物发现早期对结构多样且机 制未知的合成前化合物的致癌性预测,缺乏普遍意义,这表明传统构 效关系方法对于当活性和分子描述符之间存在线性相关或化合物为单 一作用机制时候时比较有效,但对于模拟多种机制的非线性相关属性 效果不明显。目前致癌性预测面临的一个主要挑战就是如何发展更新 更好的方法从结构多样的化合物数据集中发现对正确预测有价值的信息(Votano, et al, 2004 )。数据挖掘是一个很有潜力的解决上述问题的一个方法。数据挖掘 是"从数据中提取出隐含的特别的,过去未知的,潜在有价值的信息,, (Dunham, 2003 ),也是"一门从大量数据或者数据库中提取有用信息 的科学",是一个受到统计学,机器学习,算法语言,数据库系统和信 息科学等多个学科影响的交叉领域(Han and Micheline, 2000)。其最 主要的目的有两个,根据历史预测未来和了解数据中潜在的关见律。在 药物开发过程中积累的符合标准毒理学实验测试结果的化合物数据库 为采用数据挖掘方法进行致癌性预测提供了良好的数据挖掘基础。除了性能方面的局限,当前的计算毒性预测方法经常会碰到随机 预测的问题,即改变哪怕很小的训练数据集的组成都可能作出截然相 反的预测结果。因此, 一个能够产生具有统计意义的预测结果和提炼 出稳定判断规则的计算方法对于指导研究者作出可靠决策具有重要意 义。
技术实现思路
本专利技术的目的是提出一种能够避免随机预测又同时提供稳定致癌 性判断规则的基于决策森林的致癌毒性评价方法。该目的主要是采用分子描述,复杂抽样和改进的决策森林方法,通过对现有分子结构和相关致癌毒性数据进行数据挖掘达到1) 结构与毒性关系模型的建立要求选择与属性最相关的结构片断 或化学特征。对于致癌毒性,描述符的选择需要充分考虑其分子致癌 机制。如前所述,小分子致癌毒性的产生机制可以概括为如下两个方 面a)自身或其代谢物与DNA的直接相互作用引起正常细胞转变成癌 细胞;b)通过复杂的生物化学机制网络,如转运,代谢,DNA诱导等, 小分子与特定的细胞内受体结合,引起下游细胞分裂异常。这些效应 影响正常的细胞分裂周期,最终导致致癌毒性。当前的研究表明,致 癌毒性可能与分子的大小、形状、电子信息、极化度等多种化合物内 在属性相关。Votano等人的QSAR研究(Votano, et al, 2004)显示,化 合物中杂原子的电负性和共价半径对致癌毒性的产生也有重要作用。 基于上述原因,我们从五类约49个符合上述特征的描述符中分别经过 相关矩阵分析,因子分析(Factor Analysis, FA)等方法的挑选获得18 个描述符用于建模和MJ'J推导。2) 决策森林是一系列标准决策单树的集合,由于每一抹树都能对 任意一个观测值给出预测值,大多数单树的预测结果将是稳定的预测 结果,而最终预测值是所有决策单树即决策森林预测结果的平均值。 这样的策略能有效降低决策单树出现随机预测的缺点。理论上,构成 决策森林的每抹决策单树可以通过a)改变算法建立;b)固定训练集, 改变变量建立;c)固定变量改变训练集的组成建立(Breiman,2001 )。 本研究采用第三种方式建立决策森林。这是因为决策单树依赖于训练 集的组成,改变训练集的组成(对于决策森林而言就是训练子集)意 味着改变树形,而采用合理方式生成的训练子集有助于决策单树之间 彼此合理交叉,使训练子集的化学空间能够有效重叠在一起,在充分 代表原有总训练集化学空间的同时,能够对其本文档来自技高网
...

【技术保护点】
一种基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法,其特征在于,所述方法包括如下步骤: a.使用复杂抽样算法完成训练子集产生,采用三层循环基于系统时间的随机数发生器进行化合物的随机挑选,并使用C程序完成训练子集抽样; b .根据复杂抽样算法结果固定描述符的组成计算分子中的各种相关描述符,用于分子的表征并用于分子致癌毒性建模,所述描述符包括电子描述符、空间描述符、结构描述符、热力学描述符和拓扑描述符; c.使用基于相关矩阵分析和因子分析方法优化描述符池;  d.使用改进的决策森林方法对训练集分子的致癌毒性数据及其相应化学表征进行数据挖掘,得到分类的预测可信区间和致癌毒性预测模型; e.根据改进的决策森林方法使用C语言开发模块化的有机化合物致癌毒性预测程序; f.根据得到的致 癌毒性预测模型,统计所有决策单树中描述符的出现频率,发现与致癌性最相关的描述符与相关规则。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋华良罗小民张振山朱维良郑明月沈建华陈凯先薛春霞
申请(专利权)人:中国科学院上海药物研究所
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1