基于采样与集成学习的蛋白质-DNA绑定残基预测方法技术

技术编号:20007248 阅读:65 留言:0更新日期:2019-01-05 18:45
本发明专利技术公开了一种基于采样与集成学习的蛋白质‑DNA绑定残基预测方法,包括:步骤1、特征提取与训练样本集构建;步骤2、采样与模型训练;步骤3、模型集成;步骤4、在线预测。该方法用于解决蛋白质‑DNA绑定残基预测问题中由于特征种类较少、类不平衡问题而导致预测精度偏低的缺点,具有预测精度高、泛化能力强的优点。

Prediction of protein-DNA binding residues based on sampling and ensemble learning

The invention discloses a method for predicting protein-DNA binding residues based on sampling and ensemble learning, which includes: step 1, feature extraction and training sample set construction; step 2, sampling and model training; step 3, model integration; step 4, online prediction. This method is used to solve the problem of protein-DNA binding residue prediction, which has the advantages of high prediction accuracy and strong generalization ability due to the lack of feature types and class imbalance.

【技术实现步骤摘要】
基于采样与集成学习的蛋白质-DNA绑定残基预测方法
本专利技术涉及生物信息学预测蛋白质-配体绑定残基领域,具体地说,是一种基于超平面距离的下采样算法、改进的自适应提升算法的具有高精度、泛化能力强的蛋白质-DNA绑定残基预测方法。
技术介绍
在细胞中,蛋白质经常需要与DNA分子绑定来共同参与各种生命活动,如DNA复制、DNA修复和病毒感染。准确地识别蛋白质-DNA绑定残基有助于分析蛋白质功能和设计新药物。传统上,研究者利用生化方法(如EMSAs、FastChIP和X-raycrystallography)来鉴别蛋白质-DNA绑定残基。然而,此类方法耗时长、代价高,在蛋白质-DNA复合物飞速增长的后基因时代,已经无法满足相关研究的迫切需求。因此,近二十年来,该领域的研究者提出了大量高效的计算方法来识别蛋白质-DNA绑定残基。这些方法可以分为两类:基于模板的方法和基于机器学习的方法。在早期的时候,基于模板的方法在预测蛋白质-DNA绑定残基领域得到了广泛地使用。此类方法的原理如下:给定一条待查询的蛋白质序列,利用合适的匹配/比对算法从蛋白质数据库中选出该序列对应的模板蛋白质序列,再根据该模板本文档来自技高网...

【技术保护点】
1.一种基于采样与集成学习的蛋白质‑DNA绑定残基预测方法,其特征在于,包括以下步骤:步骤1、特征提取与训练样本集构建:给定一个蛋白质序列集,利用PSI‑BLAST、PSIPRED、SANN和AAFD‑BN算法分别提取每条蛋白质序列的进化信息、预测的二级结构信息、预测的溶剂可及性信息和氨基酸频率差信息;在此基础上,结合滑动窗口技术和串行特征融合技术将序列中的氨基酸残基以特征向量的形式表示,并以残基为单位构建训练样本集OTD;步骤2、采样与模型训练:使用基于超平面距离的下采样HD‑US算法生成训练样本集的若干子集,并在每个子集上训练支持向量机SVM模型;步骤3、模型集成:利用改进的自适应提升MA...

【技术特征摘要】
1.一种基于采样与集成学习的蛋白质-DNA绑定残基预测方法,其特征在于,包括以下步骤:步骤1、特征提取与训练样本集构建:给定一个蛋白质序列集,利用PSI-BLAST、PSIPRED、SANN和AAFD-BN算法分别提取每条蛋白质序列的进化信息、预测的二级结构信息、预测的溶剂可及性信息和氨基酸频率差信息;在此基础上,结合滑动窗口技术和串行特征融合技术将序列中的氨基酸残基以特征向量的形式表示,并以残基为单位构建训练样本集OTD;步骤2、采样与模型训练:使用基于超平面距离的下采样HD-US算法生成训练样本集的若干子集,并在每个子集上训练支持向量机SVM模型;步骤3、模型集成:利用改进的自适应提升MAdaBoost算法将全部SVM模型进行决策融合,得到集成的SVM模型;步骤4、在线预测:给定一条待预测的蛋白质序列,对于序列中的每个氨基酸残基,利用步骤1中的方法生成相应的特征向量,并将此特征向量作为集成的SVM模型的输入来预测该残基是否为DNA绑定残基。2.根据权利要求1所述的预测方法,其特征在于:所述步骤1中,对于一个由L个氨基酸残基组成的蛋白质序列P,利用PSI-BLAST、PSIPRED、SANN和AAFD-BN算法提取P的位置特异性得分矩阵PSSM、预测的二级结构矩阵PSS、预测的溶剂可及性矩阵PSA和氨基酸频率差矩阵AAFD,它们的大小分别是[L,20]、[L,3]、[L,3]和[L,1],并使用长度为W的滑动窗口得到每个残基的位置特异性得分特征矩阵、预测的二级结构特征矩阵、预测的溶剂可及性特征矩阵和氨基酸频率差特征矩阵,并拉成长度为20×W、3×W、3×W和1×W的特征向量;最后,将上述四个特征向量串行融合,得到每个残基最终的特征向量,长度为(20+3+3+1)×W。3.根据权利要求1所述的预测方法,其特征在于:所述步骤2的HD-US采样算法的每次迭代中,首先在当前的训练集上训练一个SVM模型,然后计算当前训练集中每个负样本与SVM的分割超平面间的距离,接着从当前训练集中移除部分离超平面距离最近的负样本,从而得到一个新的子集,该子集在下一次迭代中作为新的训练集来训练SVM模型;此外,在第一次迭代时,SVM模型是训练在原始训练集OTD上的;经过N次迭代后,从OTD中生成N个子集,且每个子集上都训练了一个SVM模型。4.根据权利要求3所述的预测方法,其特征在于:所述HD-US算法的具体步骤如下:初始化:令i←1,Si←OTD,其中Si为第i次迭代中的训练集;步骤2.1:在Si上训练一个SVM模型,表示为HDSVMi:HDSVMi←Trai...

【专利技术属性】
技术研发人员:於东军朱一亨胡俊
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利