当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于梯度提升决策树和特征选择的药物靶标预测方法技术

技术编号:18895151 阅读:20 留言:0更新日期:2018-09-08 11:16
本发明专利技术采用更适合稠密型数据集的梯度提升决策树模型来预测药物靶标的相互作用,并且采用删除无用特征、保留id、添加两倍负样本的特征选择办法优化预测效果。实验结果显示,梯度提升决策树模型得到的预测效果明显优于其他机器模型。

A prediction method for drug targets based on gradient lifting decision tree and feature selection

The method adopts a gradient lifting decision tree model which is more suitable for dense data sets to predict the interaction of drug targets, and adopts the feature selection method of deleting useless features, retaining ID and adding double negative samples to optimize the prediction effect. Experimental results show that the gradient lifting decision tree model is superior to other machine models.

【技术实现步骤摘要】
一种基于梯度提升决策树和特征选择的药物靶标预测方法
本专利技术涉及生物信息学
,更具体地,涉及一种基于梯度提升决策树和特征选择的药物靶标预测方法。
技术介绍
传统的药物靶标预测方法分为两类:对接仿真技术和基于计算机的方法。对接仿真技术利用目标已知的3D结构来预测DTI,它具有更高的精确度,但是也存在着巨大的成本和时间耗费。由此逐渐引入基于计算机的方法。基于计算机的方法也可分为两类,基于相似度的方法和基于特征的方法。相似的药物总会和相似的蛋白质发生作用。所以基于相似度的方法基于这个设想,建立一个药物-药物相似矩阵,靶标-靶标相似矩阵,根据相似矩阵预测新药物靶标是否会发生作用。而基于特征的方法则是利用药物、靶标的描述符建立一个特征向量矩阵,充分利用药物靶标信息,给新的药物靶标对评分,预测其是否相互作用。基于相似度的方法计算复杂,而且没有充分利用已知药物靶标关系的特点。基于特征的方法利用了药物靶标信息并表现出高性能。药物靶标数据集有个特点,维度高而样本小,经过一些特征补充和处理后,甚至会有样本维度大于样本数量的情况。另外,所有的官方药物靶标数据集都不提供正样本。在这种情况下,主流的复杂机器学习方法并不适用。
技术实现思路
本专利技术提出了一种基于梯度提升决策树和特征选择的药物靶标预测方法,旨在解决药物靶标预测不准确、预测难的问题。为实现以上专利技术目的,采用的技术方案是:一种基于梯度提升决策树和特征选择的药物靶标预测方法,包括以下步骤:S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集,然后利用开源python库PyDPI根据数据集的药物id和靶标id分别抓取药物描述符和靶标描述符;得到一个正样本数据集;S2.对正样本数据集中无用的数据特征进行删除;保留药物id和靶标id作为数据集的两个特征,使用LabelEncoder把字符串类型的id转化为数字编号;S3.随机选择没有相互作用的药物靶标对作为负样本数据集;正样本数据集、负样本数据集组合成样本数据集;S4.载入梯度提升决策树模型;S5.将样本数据集划分为训练集和测试集,然后利用训练集中的样本数据对梯度提升决策树模型进行训练,利用测试集对梯度提升决策树模型测试其预测的AUC和准确率;S6.基于梯度提升决策树模型预测的AUC和准确率对梯度提升决策树模型的参数进行调整;S7.重复步骤S5的训练测试过程及步骤S6的参数调整过程,直至梯度提升决策树模型预测的AUC和准确率符合要求;S8.利用梯度提升决策树模型进行药物靶标的预测。优选地,所述步骤S2删除无用的数据特征的具体过程如下:1)删除无用靶实体;2)删除无用列。优选地,所述步骤S3中,正样本数据集、负样本数据集的数量比例为1:2。优选地,所述步骤S6采用XGBOOST算法进行参数的调整,每次调整只调整一组参数,而固定其他参数,直至得到预测效果最好的一组参数。与现有技术相比,本专利技术的有益效果是:对比目前已使用的机器学习办法,本专利技术采用更适合稠密型数据集的梯度提升决策树模型来预测药物靶标的相互作用,并且采用删除无用特征、保留id、添加两倍负样本的特征选择办法优化预测效果。实验结果显示,梯度提升决策树模型得到的预测效果明显优于其他机器模型。附图说明图1为方法的流程示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1如图1所示,本专利技术提供的基于梯度提升决策树和特征选择的药物靶标预测方法包括有以下步骤:一、准备原始数据集1)从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集,本实施例只研究其中的人类蛋白质(靶标)。其中一共有12319对,其中包括4950个药物和2313种靶标。2)根据药物id和靶标id抓取药物和靶标的描述符。本实施例这里采用PyDPI,共获取到药物描述符609个,靶标描述符1819个。二、特征选择1)删除无用靶实体。仔细观察数据集,发现其中有少数实体存在非常多的空值,本实施例中,删除了5条这样的数据。2)删除无用列,经过图像化每个特征的密度分布图,发现有些特征在整个数据集只有一个取值,这些特征显然对预测效果没有价值,所以找出这样的290维特征并删除。3)处理id。在做特征补充的时候,发现药物和靶标的id对于提升预测效果有帮助,所以使用LabelEncoder把字符串类型的id转换为数字编号,然后作为特征保留在数据集里。4)增加负样本。由于数据集只有正样本而没有负样本,因此本实施例随机选择没有相互作用的药物靶标对作为负样本。由于样本数量太少而特征维度太大,于是本专利技术通过提升负样本的比例的方法来增加数据集体量。通过实验,本专利技术发现正负样本比例为1:2时有助于提高预测效果。三、载入模型对数据集进行特征处理之后,把数据集分成两份,1/5的测试集和4/5的训练集,其中测试集用于模型建立成功后测试其预测的AUC和准确率,训练集放到梯度提升决策树模型(GBDT)进行训练。四、调整参数本专利技术使用了比较广泛使用的GBDT库XGBOOST,需要调整的参数比较多,本实施例每次只调整一种参数,而固定其他参数,直至得到预测效果最好的一组参数。我们依次调整了max_depth和min_child_weight,gamma,subsample和colsamplebytree,eta,lambd,seed,boost_round。五、五折交叉验证最后采用五折交叉验证方法重复实验,检验模型的鲁棒性。实施例2本实施例对实施例1的方法进行了具体的仿真实验,实验结果显示,GBDT模型得到的预测效果明显优于其他机器模型,可以参考下表。方法AUC准确率NaiveBayes0.542850.445622NeuralNet0.556110.544142SVM0.561190.597514LogisticRegression0.624490.619996NearestNeighbors0.710110.663864RandomForest0.874730.817584Ourapproach0.910950.871931另外,经过特征选择的预测效果优于未经过特征选择的效果,AUC和准确了分别提升了1.4%和4.5%。显然,本专利技术的上述实施例仅仅是为清楚地说明本专利技术所作的举例,而并非是对本专利技术的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术权利要求的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于梯度提升决策树和特征选择的药物靶标预测方法,其特征在于:包括以下步骤:S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集,然后利用开源python库PyDPI根据数据集的药物id和靶标id分别抓取药物描述符和靶标描述符;得到一个正样本数据集;S2.对正样本数据集中无用的数据特征进行删除;保留药物id和靶标id作为数据集的两个特征,使用LabelEncoder把字符串类型的id转化为数字编号;S3.随机选择没有相互作用的药物靶标对作为负样本数据集;正样本数据集、负样本数据集组合成样本数据集;S4.载入梯度提升决策树模型;S5.将样本数据集划分为训练集和测试集,然后利用训练集中的样本数据对梯度提升决策树模型进行训练,利用测试集对梯度提升决策树模型测试其预测的AUC和准确率;S6.基于梯度提升决策树模型预测的AUC和准确率对梯度提升决策树模型的参数进行调整;S7.重复步骤S5的训练测试过程及步骤S6的参数调整过程,直至梯度提升决策树模型预测的AUC和准确率符合要求;S8.利用梯度提升决策树模型进行药物靶标的预测。

【技术特征摘要】
1.一种基于梯度提升决策树和特征选择的药物靶标预测方法,其特征在于:包括以下步骤:S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集,然后利用开源python库PyDPI根据数据集的药物id和靶标id分别抓取药物描述符和靶标描述符;得到一个正样本数据集;S2.对正样本数据集中无用的数据特征进行删除;保留药物id和靶标id作为数据集的两个特征,使用LabelEncoder把字符串类型的id转化为数字编号;S3.随机选择没有相互作用的药物靶标对作为负样本数据集;正样本数据集、负样本数据集组合成样本数据集;S4.载入梯度提升决策树模型;S5.将样本数据集划分为训练集和测试集,然后利用训练集中的样本数据对梯度提升决策树模型进行训练,利用测试集对梯度提升决策树模型测试其预测的AUC和准确率;S6.基于梯度提升决策树模...

【专利技术属性】
技术研发人员:陈纪云常会友
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1