当前位置: 首页 > 专利查询>四川大学专利>正文

基于支持向量机的药物分子药代动力学性质和毒性预测方法技术

技术编号:2821722 阅读:338 留言:0更新日期:2012-04-11 18:40
基于支持向量机的药物分子药代动力学性质和毒性预测方法属计算机辅助药物分子设计领域。本方法充分利用支持向量机的统计学习建模优势,采用集成的方法同时进行药物分子描述符的选择和SVM参数的优化。实施步骤:描述符的计算,描述符的预处理,对描述符数据集进行重新标度,采用集成的方法同时进行描述符的选择和SVM参数优化。SVM参数优化使用共扼梯度法对惩罚函数C和核函数γ进行优化。描述符的选择使用遗传算法,个体适应度函数采用综合反映预测准确度和描述符数目的适应函数。在描述符的选择和SVM参数优化的集成中用SVM优化参数对每一个个体进行适应度函数计算,完成轮盘赌、杂交和突变的数据集成。本方法充分利用了SVM和计算机的两大处理优势,预测效果和效率大为提高。

【技术实现步骤摘要】

本专利技术涉及计算机辅助药物分子设计领域,特别涉及一种。
技术介绍
在药物开发的初期,使用计算机预测药物分子的药代动力学性质和毒性,可以减少后期药物开发的风险,降低研发成本。目前常用的预测药物分子药代动力学性质和毒性的方法主要包括多重线性回归、主成分分析、偏最小二乘方法等。这些方法的缺陷主要包括它们只适用于化合物结构差异较小的体系,而实际的药物分子体系一般结构差异很大;这些方法一般要求样本的数量多,而药代动力学和毒性实验数据测试困难、并且费用较高,限制了大量实验数据的获取;由于试验数据的不足导致了预测能力非常有限。 支持向量机(Support Vector Machine,SVM)是近年来发展起来的一种优秀的机器统计学习方法,它在文字、图像识别和数据挖掘中已得到较多的应用。但是使用SVM的方法还不能很好地完成药物分子的药代动力学和毒性预测。因为SVM本身还存在一些自身无法解决的问题,比如在SVM建模中所使用的描述符有许多是重复和冗余的,SVM参数包括惩罚函数C和核函数γ的设置不尽合理等。这些问题的存在严重地影响药物分子药代动力学性质和毒性预测模型的质量。如何充分利用支持向量机的统计学习建模和计算机快速处理外部巨大数据的独特优势,开发适用于药物分子的药代动力学和毒性预测模型,对计算机辅助药物分子设计和创新药物研发有着十分重要的作用。
技术实现思路
本专利技术的目的是提供一种基于支持向量机的新的药物分子药代动力学性质和毒性预测方法。本方法既充分利用支持向量机的统计学习建模优势,又充分利用计算机快速处理外部大量数据的能力,其基本思路是引用药物分子描述符程序计算出描述符,进行描述符的预处理,在构建新的SVM预测模型过程中同时充分考虑药物分子描述符的选择和SVM参数的优化,并建立药物分子药代动力学性质和毒性的预测系统,使其预测质量和效率大为提高。 本专利技术的目的是这样达到的一种基于SVM的药物分子药代动力学性质和毒性预测方法,其特征在于构建新的计算机程序预测模型,在构建过程中同时进行药物分子描述符的选择和SVM参数的优化;构建步骤包括描述符的计算,描述符的预处理,对描述符数据集进行重新标度,采用集成的方法同时进行描述符的优化和SVM参数优化;SVM参数的优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化;描述符的优化使用遗传算法,个体适应度函数采用综合反映预测准确度和描述符数目的适应度函数Fit=WA×SVM_accuracy+WF×NF,其中SVM_accuracy为该个体的5重交叉验证的精度,WA为对应的权重,NF为描述符的个数,WF为对应的权重。在获得每个染色体的适应度函数后,通过轮盘赌,杂交和突变等运算产生下一代种群;描述符的选择和SVM参数优化的集成是在SVM参数优化的基础上对每一个个体进行适应度函数的计算,完成轮盘赌,杂交和突变的数据集成。 所述对SVM参数优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化的方法是设C′,γ′是最优的惩罚函数和核函数,A′值最小表示SVM预测的精度最高,C′=logC,γ′=logγ,A′=-A;然后按照以下步骤进行 (1)在初始点x0=(C′0,γ′0)处计算梯度的负值,即r0=-g0,设置第一个共扼方向d0=r0; (2)设xi=x0,di=d0,沿di方向线性搜索αi,使得-f(xi+αidi)最小,然后产生xi+1=xi+αidi; (3)在新的点计算ri+1=-gi+1; (4)检查是否满足收敛条件,即|ri+1|<tolerance的设定值,如果满足则退出,否则继续下一步。 (5)通过公式计算 (6)计算新的共扼方向di+1=ri+1+βi+1di; (7)重复(2)-(6)步,直到收敛条件满足。 所述描述符的优化使用遗传算法方法,采用个体适应度函数进行优化的具体步骤是 (1)编码表示每一个描述符对应一个二进制位,若该描述符出现在选择的描述符集合中,则该位为1,否则为0; (2)初始化遗传代数k,令k=0; (3)初始化种群随机产生n=20个二进制串; (4)检查是否满足停止条件,即k>200或最后50代均没有进一步改善预测的准确率,如果满足则退出,否则继续下面的操作; (5)计算个体适应度函数fitness=WA×SVM_accuracy+WF×NF,其中SVM_accuracy为5重交叉验证的精度,NF是选择的描述符数量,WA和WF分别是它们的权重因子; (6)按个体适应度函数大小排列,使用轮盘赌方法选择20个个体; (7)对选择的个体进行两两配对进行10次杂交,产生20个新的个体; (8)将新的20个个体按照2%的概率进行突变,即将0变为1,或将1变为0; (9)设遗传代数k=k+1,转第(4)步。 所述描述符的选择和SVM参数的优化是集成的,步骤是 (1)按照对描述符优化的步骤(1)-(4)进行描述符优化; (2)按照对SVM参数优化的步骤(1)-(7)进行参数优化; (3)按计算个体适应度函数公式计算个体适应度函数Fit=WA×SVM_accuracy+WF×NF,其中SVM_accuracy是使用经过SVM参数优化后获得的参数C和γ计算获得的; (4)按照描述符优化步骤(6)-(9)继续进行,直到结束。 所述在对描述符进行预处理和进行描述符数据集的重新标度,是在预处理中删除明显差的描述符,降低冗余度和描述符的重叠,再将描述符数据集映射到同一个区间进行重新标度,按照以下公式进行其中v是描述符的原始值,vscaled是重新标度后的值,max和min分别对应该描述符的最大值和最小值。 在描述符的预处理中删除明显差的描述符,是删除下面三种(a)描述符的值超过90%为零的;(b)描述符的标准差小于0.5%的;(c)与其它描述符的相关系数大于90%的。检查是否满足收敛条件,即|ri+1|<tolerance的值,其设定值是设定tolerance为0.001。 本专利技术的积极效果是将支持向量机独特的统计学习建模思想引入到药物药代动力学性质和毒性的预测系统,有效地利用了SVM统计学习方法和计算机处理大量外部数据的独特优势。在基于支持向量机的基础上构建新的模型,通过描述符的预处理和重新标度、描述符的优化和选择、SVM参数的优化,利用合适的个体适应度函数综合反映预测准确度和描述符数目等手段,建立了高质量的药物分子药代动力学性质和毒性的预测系统和方法。预测质量和效率均大大提高。与现有的SVM方法相比本专利技术效果十分突出,预测质量和预测效率大为提高。预测准确率可达95%以上,而使用的描述符数目比其它方法减少50%以上,预测时间缩短至少30%。本专利技术具有很高的实用价值和推广意义。 附图说明 图1是SVM参数优化的流程图。 图2是描述符优化的流程图。 图3是利用本专利技术实现基于支持向量机的药物药代分子动力学性质和毒性预测流程图。 具体实施例方式 参见附图3。 图3给出了采用本专利技术的方法实现药代动力学性质和毒性预测的具体过程。 首先,在药物分子训练集中,收集已知的有机化合物药代动力学和毒性相关物理化学性质、吸收、分布、代谢、排泄和毒性数据。本例收集典型的数据,包括(1)抗真菌性;本文档来自技高网...

【技术保护点】
一种基于SVM的药物分子药代动力学性质和毒性预测方法,其特征在于:构建新的计算机程序预测模型,在构建过程中同时进行药物分子描述符的选择和SVM参数的优化;构建步骤包括:描述符的计算,描述符的预处理,对描述符数据集进行重新标度,采用集成的方法同时进行描述符的优化和SVM参数优化;SVM参数的优化使用共扼梯度法,对惩罚函数C和核函数γ进行优化;描述符的优化使用遗传算法,个体适应度函数采用综合反映预测准确度和描述符数目的适应度函数Fit=W↓[A]×SVM_accuracy+W↓[F]×N↓[F],在获得每个染色体的适应度函数后,通过轮盘赌,杂交和突变等运算产生下一代种群;描述符的选择和SVM参数优化的集成是在SVM参数优化的基础上对每一个个体进行适应度函数的计算,完成轮盘赌,杂交和突变的数据集成。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨胜勇黄奇魏于全马长英张会
申请(专利权)人:四川大学
类型:发明
国别省市:90[中国|成都]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利