一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法技术

技术编号:20330330 阅读:23 留言:0更新日期:2019-02-13 06:29
本发明专利技术公开了一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,针对锌结合蛋白质作用位点的特点,对蛋白质源数据进行预处理;借助随机下采样技术对锌结合蛋白质作用位点的非平衡性进行平衡化处理,得到若干个子平衡数据集;分别在若干个子平衡数据集上,选取有可区分性的蛋白质生化特征,进行特征表示,组成特征向量;分别把特征向量作为基分类器支持向量机的输入,计算样本权重,再构建基于样本加权的概率神经网络模型,最后整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型;采用得到预测模型对目标样品中的锌结合蛋白质作用位点进行识别。

【技术实现步骤摘要】
一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法
本专利技术涉及一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,是针对非平衡分类模式下,利用集成学习分类模型识别锌结合蛋白质作用位点,属于蛋白质组学与计算机科学的交叉领域。
技术介绍
随着人类基因组计划的完成,生命科学进入了后基因组时代,基因所表达的蛋白质成为生命科学和自然科学领域重要的研究课题之一。蛋白质(Protein)是构成细胞的基本有机物,是生命的物质基础,在生物生命过程中起着决定性作用。然而,这种决定性作用不是简单的由单个蛋白质就能决定的,绝大部分情况下,需要由蛋白质与其他蛋白质或者配体共同相互作用来完成特定的生物学功能。在细胞中,蛋白质作为生命活动的体现者和承担者,通过与配体相互作用完成特定的关键性作用,比如DNA合成、信号传导、基因转录激活、生命代谢过程、病毒防护等。其次,蛋白质作用在各种疾病的治疗方面也具有极大的推进作用,特别是一些病毒蛋白的侵扰,比如埃博拉病毒(Ebolavirus),它能揭示某些疾病的发病机理,寻找某些药物的靶点和新药研发具有指导作用。金属离子作为辅因子与蛋白质结合,对蛋白质发挥其生物学功能甚至一些生命过程起着决定性的作用。锌离子作为生物体中第二丰富的金属离子,仅次于铁,对生物体的生长发育、疾病控制、DNA合成等具有重要的调控作用。锌离子缺乏会导致一些疾病,如年龄相关的退役性疾病,恶性肿瘤和Wilson病。另外,锌对衰老、凋亡、免疫功能和氧化应激也具有重要作用。锌离子与蛋白质结合才行使催化、稳定结构和协调等生物学功能。对锌结合蛋白质作用位点的识别主要采用的是生化实验方法。这些实验方法虽能测定蛋白质与锌离子间的相互作用位点,但由于实验测定成本太高,费时费力;而且,由于实验需要不同的限制条件,采用不同的实验原理,这样会使实验结果具有一定的假阴性和假阳性。因此,单纯依靠实验技术和手段发现这些数据的生物学意义已经远远不能满足生物学发展的需要。随着信息技术的发展和海量生物数据的出现,利用一些计算方法如数据挖掘技术及机器学习相关算法自动识别锌结合蛋白质作用位点是一种发展的必然趋势。它具有成本低、速度快等优点,能弥补实验的缺陷,并进一步为代价高昂的生物实验测定相互作用提供直接的支撑和引领。锌离子结合蛋白质作用位点预测是一个二分类问题,真正结合的作用位点很少,不结合的作用位点占比很高,锌结合蛋白质作用位点预测是一个典型的非平衡分类问题。目前已有的预测方法采用数据挖掘等方法建立分类模型,将两类样本同等对待,没有考虑到数据的不平衡性,致使锌结合蛋白质作用位点预测的精度很低。因此,研究锌结合蛋白质作用位点预测中的非平衡性,提高少数类的分类精确度具有重要的研究意义。
技术实现思路
本专利技术的目的是针对锌结合蛋白质作用位点预测中的非平衡性分类问题,提供一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法。为了解决上述技术问题,本专利技术采取的技术方案如下:一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,包括如下步骤:步骤一:针对锌结合蛋白质作用位点的特点,对蛋白质源数据进行预处理;步骤二:借助随机下采样技术对锌结合蛋白质作用位点的非平衡性进行平衡化处理,得到若干个子平衡数据集;步骤三:分别在若干个子平衡数据集上,选取有可区分性的蛋白质生化特征,进行特征表示,组成特征向量;步骤四:分别把特征向量作为基分类器支持向量机的输入,计算样本权重,再构建基于样本加权的概率神经网络模型,最后整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型;步骤五:采用步骤四得到预测模型对目标样品中的锌结合蛋白质作用位点进行识别。其中,步骤一中,所述预处理去除如下噪声数据:(1)去除同源性高于70%的肽链结构;(2)剔除重复的,较短的蛋白质链以及错误和不可靠的数据;(3)去除满足序列冗余小于20%的链。步骤二中,所述平衡化处理为随机下采样技术为对大类样本进行随机下抽样,每次抽取与小类样本相同的数量,构成若干子平衡数据集;所述大类样本为非结合的蛋白质作用位点,所述小类样本为锌结合的蛋白质作用位点。步骤三中,所述可区分性的生化特征包括特征位置特异性得分矩阵、保守性得分和RW-GRMTP(relativeweightofgaplessrealmatchestopseudocounts无间隙实匹配伪距的相对权重);对位置特异性得分矩阵进行归一化处理,并采用直方图和滑动窗口处理,得到一个20维的向量;把20维的保守性得分转换成一个值;对RW-GRMTP进行归一化处理,得到一个2维向量;最终形成一个23维的特征向量。步骤四中,在若干个子平衡数据集上分别训练基分类器SVM支持向量机,根据式(1)和式(2)分别计算预测误差率ej和分类模型的重要程序权重αj;其中,全体数据集为D,D={(x1,y1),(x2,y2),…,(xn,yn)},xi∈X,X代表分类问题的类域实例空间,yi∈{1,-1},i=1,2,…n,n是样本数;wmi为权重,初始值设为1/n,即w1=(w11,w12,...,w1n),其中w1i=1/n;i=1,2,…,n;m=1,2;在k个平衡数据集上分别使用基分类器SVM进行训练,得到k个分类预测结果Csvm_j(x),j=1,…,k。计算当前样本权重并进行归一化处理,样本分类正确,减少相应的样本权值;若样本分类错误,增加相应的样本权值,计算公式如式(3):构建基于样本加权的概率神经网络模型为对蛋白质特征数据进行加权,加权后的样本数据作为概率神经网络模型的输入,使用概率神经网络进行预测,该方法记作SWPNN,预测结果为SWPNN(x)。整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型SSWPNN,SSWPNN={SVM,SWPNN,kernelopt,spread,f},其中kernelopt,spread分别是SVM和SWPNN分类器的参数,f的定义如式(4)所示;同时根据错误率计算相应的权重βj;其中,δ为阈值,Csvm_j(x)和SWPNN(x)分别是分类器SVM和SWPNN的分类结果,其值大于0,则预测为正类样本,小于0则预测为负类样本。若SVM(X)的值为正且小于阈值δ,且SWPNN(X)预测为反例时,最终集成预测结果判断为反例,其他情况下,以SVM(X)结果为最终判断的结果。步骤五中,在整个测试数据集上分别利用集成模型SSWPNN进行预测,得出不同的分类结果,再对结果进行加权集成,最终识别出目标样品中锌结合蛋白质作用位点,如式(5)所示:有益效果:本专利技术所提的方法从机器学习的角度出发,针对非平衡模式下锌结合蛋白质作用位点的识别问题,提出了一种新颖的基于集成学习的锌结合蛋白质作用位点预测方法,有效解决了非平衡分类模式下锌结合蛋白质作用位点的预测,取得了一定的预测准确率。本专利技术经过扩展后,可以应用到其它类型金属离子结合蛋白质作用位点的预测识别。附图说明下面结合附图和具体实施方式对本专利技术做更进一步的具体说明,本专利技术的上述和/或其他方面的优点将会变得更加清楚。图1是本专利技术方法的总体框架图。图2是基于SVM和SWPNN模型的锌结合蛋白质作用位点分类器框架图。图3是SSWPNN分类器的预测过程本文档来自技高网
...

【技术保护点】
1.一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,包括如下步骤:步骤一:针对锌结合蛋白质作用位点的特点,对蛋白质源数据进行预处理;步骤二:借助随机下采样技术对锌结合蛋白质作用位点的非平衡性进行平衡化处理,得到若干个子平衡数据集;步骤三:分别在若干个子平衡数据集上,选取有可区分性的蛋白质生化特征,进行特征表示,组成特征向量;步骤四:分别把特征向量作为基分类器支持向量机的输入,计算样本权重,再构建基于样本加权的概率神经网络模型,最后整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型;步骤五:采用步骤四得到预测模型对目标样品中的锌结合蛋白质作用位点进行识别。

【技术特征摘要】
1.一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,包括如下步骤:步骤一:针对锌结合蛋白质作用位点的特点,对蛋白质源数据进行预处理;步骤二:借助随机下采样技术对锌结合蛋白质作用位点的非平衡性进行平衡化处理,得到若干个子平衡数据集;步骤三:分别在若干个子平衡数据集上,选取有可区分性的蛋白质生化特征,进行特征表示,组成特征向量;步骤四:分别把特征向量作为基分类器支持向量机的输入,计算样本权重,再构建基于样本加权的概率神经网络模型,最后整合基分类模型支持向量机和基于样本加权的概率神经网络模型得到预测模型;步骤五:采用步骤四得到预测模型对目标样品中的锌结合蛋白质作用位点进行识别。2.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤一中,所述预处理去除如下噪声数据:(1)去除同源性高于70%的肽链结构;(2)剔除重复的,较短的蛋白质链以及错误和不可靠的数据;(3)去除满足序列冗余小于20%的链。3.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤二中,所述平衡化处理为随机下采样技术为对大类样本进行随机下抽样,每次抽取与小类样本相同的数量,构成若干个子平衡数据集;所述大类样本为非结合的蛋白质作用位点,所述小类样本为锌结合的蛋白质作用位点。4.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤三中,所述可区分性的生化特征包括特征位置特异性得分矩阵、保守性得分和RW-GRMTP;对位置特异性得分矩阵进行归一化处理,并采用直方图和滑动窗口处理,得到一个20维的向量;把20维的保守性得分转换成一个值;对RW-GRMTP进行归一化处理,得到一个2维向量;最终形成一个23维的特征向量。5.根据权利要求1所述的非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法,其特征在于,步骤四中,在若干子平衡数据集上分别训练基分类器SVM支持向量机,根据式(1)和式(2)分别计算预测误差率ej和分类模型的重要程序权重αj;其中,全体数据集为D,D={(x1,y1),...

【专利技术属性】
技术研发人员:李慧
申请(专利权)人:金陵科技学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1