The invention relates to a compound based on complex sampling and improved decision forest algorithm carcinogenic toxicity prediction method is suitable for calculation according to the carcinogenic toxicity assessment and virtual screening of the compounds of small organic molecular structure information. The molecular structure of the molecular force field optimization and charge calculation, the initial training set of compounds for complex sample training subset, and according to the results of a variety of related complex sampling algorithm to describe the molecular character in a fixed descriptor; then using the correlation matrix analysis and factor analysis method to optimize the descriptor pool based on finally, using decision forest method; improved data mining and data on carcinogenic chemical characterization and the corresponding training set molecules, prediction confidence interval classification, prediction model and carcinogenic toxicity judgment rule. This method has a good prospect in high throughput virtual screening and computational toxicity evaluation.
【技术实现步骤摘要】
本专利技术涉及一种基于复杂抽样和改进决策森林算法的化合物致癌 毒性预测计算方法,适用于根据有机化合物分子结构信息对该化合物 进行虚拟致癌毒性评价和筛选。
技术介绍
毒性问题是后期药物研发失败的 一个重要的因素。化合物的致癌 毒性指化合物诱发人体内滋生恶性肿瘤或良性肿瘤的一种远期性作 用。啮齿类生物测试是目前采用的主要致癌毒性实验方法。然而,该方法存在以下问题(1 )测试费用高(平均测试费用超过两百万美元); (2)耗时(3至5年);(3 )伦理考虑和公众压力——在研发和测试 中减少或不再使用动物。由于计算毒性预测具有低损耗、高通量、虚 拟现实等特点,该领域近年已经成为化学,毒理学,生物信息学,化 学信息学,药物学,统计学等学科交叉中的一个研究热点(Van de Waterbeemd and Gifford, 2003 )。与此同时,长期以来生物测试累积的 大量实验数据也为小分子致癌毒性预测打下了基础(Yu and Adedoyin, 2003 )。致癌化合物根据其分子致癌机制主要分为两大类(Choy,2001 ): 基因毒性致癌物(Genotoxic carcinogens )和非基因毒性致癌物 (Non-genotoxic carcinogens )。前者是通过自身或其活性代谢物与DNA 的直接相互作用引起正常细胞转变成癌细胞,经常是跨种属,跨性别, 多靶标组织的广泛致癌物。后者则是在癌变初期通过各种不同的机制, 如与特定的细胞内受体结合,引起下游细胞分裂异常,经常是在一个种属, 一种性别,特定的组织中表现其致癌性。基因致癌物由于其机制相对简单,体 ...
【技术保护点】
一种基于复杂抽样和改进决策森林算法的化合物致癌毒性预测方法,其特征在于,所述方法包括如下步骤: a.使用复杂抽样算法完成训练子集产生,采用三层循环基于系统时间的随机数发生器进行化合物的随机挑选,并使用C程序完成训练子集抽样; b .根据复杂抽样算法结果固定描述符的组成计算分子中的各种相关描述符,用于分子的表征并用于分子致癌毒性建模,所述描述符包括电子描述符、空间描述符、结构描述符、热力学描述符和拓扑描述符; c.使用基于相关矩阵分析和因子分析方法优化描述符池; d.使用改进的决策森林方法对训练集分子的致癌毒性数据及其相应化学表征进行数据挖掘,得到分类的预测可信区间和致癌毒性预测模型; e.根据改进的决策森林方法使用C语言开发模块化的有机化合物致癌毒性预测程序; f.根据得到的致 癌毒性预测模型,统计所有决策单树中描述符的出现频率,发现与致癌性最相关的描述符与相关规则。
【技术特征摘要】
【专利技术属性】
技术研发人员:蒋华良,罗小民,张振山,朱维良,郑明月,沈建华,陈凯先,薛春霞,
申请(专利权)人:中国科学院上海药物研究所,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。