一种基于梯度提升决策树和特征选择的药物靶标预测方法技术

技术编号：18895151 阅读：20 留言：0更新日期：2018-09-08 11:16

本发明专利技术采用更适合稠密型数据集的梯度提升决策树模型来预测药物靶标的相互作用，并且采用删除无用特征、保留id、添加两倍负样本的特征选择办法优化预测效果。实验结果显示，梯度提升决策树模型得到的预测效果明显优于其他机器模型。

A prediction method for drug targets based on gradient lifting decision tree and feature selection

The method adopts a gradient lifting decision tree model which is more suitable for dense data sets to predict the interaction of drug targets, and adopts the feature selection method of deleting useless features, retaining ID and adding double negative samples to optimize the prediction effect. Experimental results show that the gradient lifting decision tree model is superior to other machine models.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于梯度提升决策树和特征选择的药物靶标预测方法
本专利技术涉及生物信息学
，更具体地，涉及一种基于梯度提升决策树和特征选择的药物靶标预测方法。
技术介绍
传统的药物靶标预测方法分为两类：对接仿真技术和基于计算机的方法。对接仿真技术利用目标已知的3D结构来预测DTI，它具有更高的精确度，但是也存在着巨大的成本和时间耗费。由此逐渐引入基于计算机的方法。基于计算机的方法也可分为两类，基于相似度的方法和基于特征的方法。相似的药物总会和相似的蛋白质发生作用。所以基于相似度的方法基于这个设想，建立一个药物-药物相似矩阵，靶标-靶标相似矩阵，根据相似矩阵预测新药物靶标是否会发生作用。而基于特征的方法则是利用药物、靶标的描述符建立一个特征向量矩阵，充分利用药物靶标信息，给新的药物靶标对评分，预测其是否相互作用。基于相似度的方法计算复杂，而且没有充分利用已知药物靶标关系的特点。基于特征的方法利用了药物靶标信息并表现出高性能。药物靶标数据集有个特点，维度高而样本小，经过一些特征补充和处理后，甚至会有样本维度大于样本数量的情况。另外，所有的官方药物靶标数据集都不提供正样本。在这种情况下，主流的复杂机器学习方法并不适用。
技术实现思路
本专利技术提出了一种基于梯度提升决策树和特征选择的药物靶标预测方法，旨在解决药物靶标预测不准确、预测难的问题。为实现以上专利技术目的，采用的技术方案是：一种基于梯度提升决策树和特征选择的药物靶标预测方法，包括以下步骤：S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集，然后利用开源python库PyDPI根据数据集的药物id...

【技术保护点】
1.一种基于梯度提升决策树和特征选择的药物靶标预测方法，其特征在于：包括以下步骤：S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集，然后利用开源python库PyDPI根据数据集的药物id和靶标id分别抓取药物描述符和靶标描述符；得到一个正样本数据集；S2.对正样本数据集中无用的数据特征进行删除；保留药物id和靶标id作为数据集的两个特征，使用LabelEncoder把字符串类型的id转化为数字编号；S3.随机选择没有相互作用的药物靶标对作为负样本数据集；正样本数据集、负样本数据集组合成样本数据集；S4.载入梯度提升决策树模型；S5.将样本数据集划分为训练集和测试集，然后利用训练集中的样本数据对梯度提升决策树模型进行训练，利用测试集对梯度提升决策树模型测试其预测的AUC和准确率；S6.基于梯度提升决策树模型预测的AUC和准确率对梯度提升决策树模型的参数进行调整；S7.重复步骤S5的训练测试过程及步骤S6的参数调整过程，直至梯度提升决策树模型预测的AUC和准确率符合要求；S8.利用梯度提升决策树模型进行药物靶标的预测。

【技术特征摘要】
1.一种基于梯度提升决策树和特征选择的药物靶标预测方法，其特征在于：包括以下步骤：S1.从标准药物靶标数据库DrugBank下载药物靶标相互作用数据集，然后利用开源python库PyDPI根据数据集的药物id和靶标id分别抓取药物描述符和靶标描述符；得到一个正样本数据集；S2.对正样本数据集中无用的数据特征进行删除；保留药物id和靶标id作为数据集的两个特征，使用LabelEncoder把字符串类型的id转化为数字编号；S3.随机选择没有相互作用的药物靶标对作为负样本数据集；正样本数据集、负样本数据集组合成样本数据集；S4.载入梯度提升决策树模型；S5.将样本数据集划分为训练集和测试集，然后利用训练集中的样本数据对梯度提升决策树模型进行训练，利用测试集对梯度提升决策树模型测试其预测的AUC和准确率；S6.基于梯度提升决策树模...

【专利技术属性】
技术研发人员：陈纪云，常会友，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人