当前位置: 首页 > 专利查询>浙江大学专利>正文

基于随机森林的化合物和蛋白质相互作用预测方法技术

技术编号:8735207 阅读:232 留言:0更新日期:2013-05-26 11:45
本发明专利技术公开了一种基于随机森林的化合物和蛋白质相互作用预测方法,包括:收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点库;收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息,构建化合物库;根据化合物库和靶点库的信息构建训练集;基于所述的训练集,使用改进随机森林算法进行训练,建立预测模型;收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信息构建测试集;基于所述预测模型对所述测试集进行预测;(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。本发明专利技术可以提高化合物和蛋白质相互作用的预测准确率。

【技术实现步骤摘要】

本专利技术涉及计算机辅助药物设计领域,特别涉及一种基于随机森林算法、用于预测化合物和蛋白质之间相互作用的方法。
技术介绍
近十多年以来,在全世界范围内,虽然药物研发的投入越来越大,但是其产出一FDA批准上市的药物数量却呈现逐年下降的趋势(C.R.Chong&D.J.Sullivan, Nature, 2007.448:p.645-646.)。越来越多的学者认为,传统的“单药物,单靶点”药物研发模式是导致这种结果的主要原因。传统的药物研发的目标主要在于发现针对单一靶点、具有高选择性和高安全性的药物。但是,人们逐渐发现,药物和靶点之间的关系是多对多的关系,即一个药物往往会作用于多个不同的靶点,而一个靶点也往往会与多种不同的药物产生相互作用(A.L.Hopkins, Nature chemical biology, 2008.4 (11):p.682-690.)。例如,在通过 FDA 审批的新化合物实体(NCE)中,有超过80%与已知的靶点产生了相互作用(M.A.Yildirim, etal., Naturebiotechnology200725 (10):plll9_1126)。因此,著名的诺贝尔奖获得者 JamesBlack说,最有效的发现新药的方法是从老的药物出发去寻找(C.R.Chong&D.J.Sullivan,Nature, 2007.448:p.645-646.)。化合物和蛋白质相互作用预测是发现已知药物的新用途一即老药新用的主要研究方法之一。事实上,从已知的化合物和蛋白质相互作用中发现新的化合物和蛋白质相互作用关系,不仅有可能发现老药的新用途,还可用于发现全新的药物和全新的靶点。所以,化合物和蛋白质相互作用预测是近年来较为热门的一个研究命题。但是,目前化合物和蛋白质相互作用预测所面临的主要问题是预测准确率低、特别是假阳性高(H.Yu etal..PloS one.2012.7(5):p.e37608.)。为此,研究发现预测准确率更高的化合物和蛋白质相互作用预测新方法具有重大意义。
技术实现思路
本专利技术的目的是针对目前现有化合物和蛋白质相互作用方法的预测准确率低的特点,提出一种基于随机森林算法、可用于发现化合物和蛋白质相互作用的方法,以更加有效地提高化合物和蛋白质之间相互作用预测的准确率。一种,包括:(A)收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点库;(B)收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息,构建化合物库;(C)根据所述化合物库和所述靶点库的信息构建训练集;(D)改进随机森林算法,使得随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在O和I之间分布;(E)基于所述的训练集,使用所述的改进随机森林算法进行训练,建立预测模型;(F)收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信息构建测试集;(G)基于所述预测模型对所述测试集进行预测;(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。所述步骤(A)中收集与药物化合物存在相互作用的靶点蛋白质信息时,首先收集与药物化合物存在相互作用的靶点蛋白质的序列信息,然后通过P s eAAC (伪氨基酸组成,Pseudo Amino Acid Composition,见文献 HB Shen&KC ChouAnalyticalBiochemistry2008373 (2) p386 - 388)工具计算得到每个祀点蛋白质的特征描述符。所述步骤(B)中收集用于构建训练集的药物化合物时:需要收集药物化合物的分子结构信息,然后通过Dragon软件计算药物化合物的分子描述符,同时剔除掉那些含有无效值、零值比例大于设定比例及标准差小于设定值的分子描述符。所述步骤(C)中,所述训练集的每一个样本都由一个药物化合物和一个靶点蛋白质配对组成,其中独立变量为药物化合物的分子描述符和靶点蛋白质的特征描述符,而因变量为药物化合物和靶点蛋白质之间的相互作用关系,具体步骤如下:(I)因变量的取值判断如下:如果一个药物化合物和一个靶点蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性;如果一个药物化合物和一个靶点蛋白质之间未发现存在相互作用关系,对应的因变量值为阴性;(2)使用所有存在相互作用关系的药物化合物和靶点蛋白质构成阳性样本,而阴性样本则从未发现存在相互作用关系的药物化合物和靶点蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。最后,训练集的总样本数等于所选定化合物与蛋白质的相互作用关系的数量乘以2。所述步骤(D)中,对所述随机森林算法,优先选用Java版本的Weka软件包(M.Hallet al.,A CM SIGKDD Explorations Newsletter2009.11(1):p.10-18.)中所带的随机森林算法,并对该算法进行改进。缺省的随机森林算法是根据多个不同的子树(tree)的预测结果进行投票(voting)来产生最终的结果,因此结果只有两种形式(阳性和阴性、或I和O)。改进后的随机森林算法中:随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在O和I之间分布。所述步骤(E)中,为提高预测精度,对所述随机森林算法的参数进行设置,其中子树数量设置为大于1000个。所述步骤(F)中,对于所收集的用于预测的化合物,需要获得相应的分子结构,并根据该分子结构信息,选择使用Dragon软件计算用于预测的化合物的分子描述符,且只留下那些与步骤(B)中相一致的分子描述符,其余全部剔除,然后把每一个用于预测的化合物与靶点库中的所有靶点蛋白质进行整合构建测试集。所述步骤(H)中,用于预测的化合物和靶点蛋白质相互作用的预测结果值分布在O和I之间,通过把结果值与设置的阈值相比较,如果结果值大于阈值,那么表示这一对用于预测的化合物和靶点蛋白质产生相互作用。本专利技术的有益效果体现在:(I)随机森林算法是一种分类算法,其预测结果通常只分为两类(如O和1,或是和否),而本专利技术利用随机森林是由一系列子树构成的特点改进了该算法,使其预测结果可以以概率的形式给出,这样更利于我们准确判断其结果的可靠性。(2)本专利技术预测的结果还可以根据概率大小进行排序,通过设置阈值,让我们优先选择排列靠前的潜在化合物和蛋白质相互作用关系进行验证。附图说明图1为本专利技术的的结构示意图。具体实施例方式为使本专利技术的目的、实施方案和优点更加清楚明白,这里结合具体实施例子作进一步的详细说明,如图1所示:(A)、收集已知的与药物化合物存在相互作用的靶点蛋白质信息以构建靶点库。从DrugBank3.0 数据库(C.Knoxet al., Nucleic Acids Research, 201139 (suppl1),p.D1035-D1041)中下载获得4177个已知的可以与药物产生相互作用的靶点蛋白质及其序列等信息,并根据靶点蛋白质序列信息,选择通过PseAAC (伪氨基酸组成,PseudoAmino Acid Composition,见文献 HB Shen&KC Chou, Analytical B本文档来自技高网
...

【技术保护点】
一种基于随机森林的化合物和蛋白质相互作用预测方法,其特征在于,包括:(A)收集与药物化合物存在相互作用的靶点蛋白质信息,构建靶点库;(B)收集用于构建训练集的药物化合物、以及药物化合物与靶点蛋白质之间的相互作用关系信息,构建化合物库;(C)根据所述化合物库和所述靶点库的信息构建训练集;(D)改进随机森林算法,使得随机森林算法的最终预测结果是通过随机森林中多个子树的预测结果相加然后取平均值获得到,其值在0和1之间分布;(E)基于所述的训练集,使用所述的改进随机森林算法进行训练,建立预测模型;(F)收集用于预测的化合物,连同步骤(A)中得到的靶点蛋白质信息构建测试集;(G)基于所述预测模型对所述测试集进行预测;(H)根据所述预测结果判断待预测的化合物和靶点蛋白质之间是否存在相互作用。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄剑平范骁辉
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1