基于集成分类器的TA蛋白靶向预测方法技术

技术编号:19058112 阅读:37 留言:0更新日期:2018-09-29 12:25
本发明专利技术公开了一种基于集成分类器的TA蛋白靶向方法,包括:采用PSSM方法对蛋白质数据进行编码;融合了一种Bayes的特征提取方法来提取蛋白质序列特征;采用mRMR算法对蛋白质数据进行特征选择;用支持向量机去训练模型,在训练过程中基于网格方式对参数γ和惩罚系数C进行优化;最后,集成SVM、NB、RF、Logist、KNN五种弱分类器对TA蛋白在亚细胞器靶向的分类结果,通过投票方式得出最终的分类结果;本发明专利技术有益效果:融合了一种Bayes的特征提取方法来提取蛋白质序列特征,通过集成多种算法的分类结果,可以更好的预测TA蛋白在亚细胞器的靶向。

【技术实现步骤摘要】
基于集成分类器的TA蛋白靶向预测方法
本专利技术属于生物信息领域,尤其涉及了基于集成分类器的TA蛋白靶向预测方法。背景内容末端锚定蛋白质(tail-anchoredproteins,TA蛋白质)是一类特殊的膜蛋白,存在于所有生物中。此类蛋白质通过位于C端的唯一疏水跨膜结构域锚定在多种细胞器膜上,参与细胞多种重要的生理生化反应,但是至今人们对TA蛋白所涉及的机制和信号尚未完全了解。蛋白质靶向定位过程之一是将蛋白质插入生物膜中,而膜蛋白的有效和准确的插入是保证其在不同细胞器中正常功能的重要步骤,并且任何靶向误差可能导致这些蛋白质的错误定位,而不利于细胞效应。因此,TA蛋白靶向的预测具有重要的意义。TA蛋白质在C末端具有单个跨膜结构域(TMD),将其锚定在细胞膜上,并将其N末端结构区域暴露在细胞溶液中。研究发现,这类蛋白在细胞分裂、凋亡、脂质运输等过程起到关键性的作用。因此,其正确的靶向定位对于细胞和生物体是至关重要的。TA蛋白质的TMD仅在翻译终止后才从核糖体中出现,TA蛋白在三个亚细胞位点进入细胞膜系统:内质网(ER),线粒体和过氧化物酶体。在哺乳动物中,TRC40复合物参与将TA蛋白质插入到ER中。过氧化物酶体和线粒体的蛋白质插入机制上不明确。TA蛋白质的靶向信息包含在C末端,并且研究中已经确定TMD的疏水性和电荷量的存在是蛋白质选择靶向的重要因素。一般来说,ER靶向的TA蛋白往往具有比线粒体的那些TA蛋白更具有疏水性,这其中包含TMD的非带电区域。实验中证明,尾部的电荷量对于过氧化物酶体靶向也是很重要的。此外,TA蛋白在哺乳动物细胞中过氧化物酶体和线粒体的靶向研究中,揭示了细胞器相互作用和新型过氧化物酶体功能之间的关系。并且在后续研究中发现,这两种靶向定位错误与细胞疾病存在关系。而且过氧化物酶体在脂质代谢中发挥重要的代谢功能,并且影响神经元的发育和衰老。虽然生物信息学在TA蛋白在亚细胞器靶向已经有相关成果,但目前仍然缺乏更广泛深入的研究。
技术实现思路
本专利技术的主要目的是提供一种基于集成分类器的TA蛋白靶向预测方法。在研究拟南芥植物TA蛋白中,本专利技术技术人员发现疏水性、电荷量、序列和序列长度这些参数的变化,对TA蛋白定位都会产生影响。通过调整特征参数,可以得出更准确的模型,本专利技术技术人员发现植物与中疏水性比电荷量更能影响TA蛋白的定位。我们通过blast序列产生的PSSM矩阵信息进行编码,利用基于互信息的最大相关最小冗余mRMR对TA蛋白序列特征进行选择,利用Bayes算法进行特征提取,并采用对五中分类器结果集成分类,通过投票方式,实现TA蛋白的靶向预测。为实现上述目的,本专利技术采用以下技术方案:本专利技术主要目的是一种基于集成分类器的TA蛋白靶向预测方法,所述方法包括以下步骤:(1)通过对TA蛋白质blast序列产生的PSSM矩阵信息编码;PSSM(position-specificweightmatrix)被称作位置权重矩阵,是提取蛋白质序列编码的一个常用算法。一个PWM包含N行(列),当模型为蛋白质时,组成蛋白质的基本氨基酸有二十种,故行列式有二十行(列),N=20。同时PWM每个不同位置都对应一列(行)数据。首先,构建位置频度矩阵(PFM)。在构建PWM的第一步中,通过计算每个位置处每个核苷酸的出现来创建基本位置频率矩阵(PFM)。从PFM中,现在可以通过将每个位置的前核苷酸计数除以序列数目来产生位置概率矩阵(PPM),由此使这些值正常化。形式上,给定长度l的N个对齐序列的集合X,PPMM的元素计算如下:通过计算PPM矩阵中各元素的对数似然值,可得出PSSM矩阵,计算如下:Mk,j=log2(Mk,j/bk)通过上述方法,可以产生PSSM矩阵信息,实现了对TA蛋白质序列的编码。(2)特征提取:利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个(正例或负例)位置发生的概率;(3)对提取得到的不同特征值进行归一化处理;(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的分类结果。通过对分类器的分类结果进行某种组合来决定最终的分类,可以取得比单个分类器更好的性能。本专利技术中根据SVM、NB、RF、Logist、KNN五类中分类器的分类结果,采用简单投票和贝叶斯投票的方式选择出最终的分类结果。1)简单投票投票法的基本思想是多个基本分类器都进行分类预测,然后根据分类结果用某种投票的原则进行投票表决,按照投票原则的不同投票法可以有一票否决、一致表决、少数服从多数、阈值表决等等。一票否决的思想是当且仅当所有的分类器都把实例划分到类的时候才把划分到,否则拒绝这个实例;一致表决的思想是没有分类器反对把划分到的时候就把划分到;少数服从多数顾名思义就是当让各个基本分类器进行投票(加权或者不加权),得票数多的那个分类作为对应实例的最终分类;阈值表决是首先统计出把实例划分为和不划分为的分类器数目分别是多少,然后当这两者比例超过某个阈值的时候把划分到。此外,对于连续目标值的分类问题,还可以采用平均取值、加权求和、中位数、最大值等等方式进行整合。2)贝叶斯投票简单投票法假设每个基本分类器都是平等的,没有分类能力之间的差别,但是这种假设并不总是合适的,在实际生活中,我们听取一个人的意见的时候会考虑到这个人过去的意见是否有用,贝叶斯投票法就是基于这种思想来提出的。贝叶斯投票法是基于每一个基本分类器在过去的分类表现来设定一个权值,然后按照这个权值进行投票,其中每个基本分类器的权值基于贝叶斯定理来进行计算。虽然理论上贝叶斯投票法在假设空间所有假设的先验概率都正确的情况下能够获得最优的集成效果,但是实际应用中往往不可能穷举整个假设空间,也不可能准确地给每个假设分配先验概率,从而使得在实际使用中其他集成方法也会优于贝叶斯投票法。与现有技术相比,本专利技术具有以下优势:(1)数据量问题学习的过程可以看作是在一个假设空间H中寻找一个最优的假设,如果训练集的数据量特别小的时候,由于训练数据不充分,可以学习到很多不同的假设,而这些假设在训练集上的正确率确是相同的,此时就很难抉择哪个假设在测试集上会得到好的结果了。本专利技术通过集成这些假设就可以减少选错分类器的风险。(2)计算问题很多学习算法都会遇到局部最优的这种状况,例如,神经网络是通过梯度下降来最小化错误率的,决策树算法是通过贪婪分裂的规则去扩展决策树的,假如训练集是足够充足的,学习算法也很难得到全局最优解的。本专利技术通过把从不同起始点得到的分类器集成的方法可以更好的靠近全局最优解。(3)假设描述问题大部分的应用中,机器学习算法很难用假设空间H中的假设去表达真实函数f;本专利技术通过对假设空间H中的假设进行加权进而扩展假设空间H的规模或许能够表示真实函数f。本专利技术集成分类器能解决单个分类器的训练数据量小,假设空间小,局部最优的三个问题,因此,集成分类器的预测能力会优于单个分类器的预测能力。附图说明图1为基于集成分类器的TA蛋白靶向方法的流程图。图2为支持向量机分类结果。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的本文档来自技高网
...

【技术保护点】
1.基于集成分类器的TA蛋白靶向方法,其特征在于,包括以下步骤:(1)通过对蛋白质blast序列产生的PSSM矩阵信息编码;(2)Bayes特征提取:利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个位置发生的概率;(3)对提取得到的不同特征特征值进行归一化处理,使所有值都落入相同的数字取值区间内;(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的分类结果。

【技术特征摘要】
1.基于集成分类器的TA蛋白靶向方法,其特征在于,包括以下步骤:(1)通过对蛋白质blast序列产生的PSSM矩阵信息编码;(2)Bayes特征提取:利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个位置发生的概率;(3)对提取得到的不同特征特征值进行归一化处理,使所有值都落入相同的数字取值区间内;(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的分类结果。2.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(1)中,位置频率(P)矩阵为:N=20,i为行号,j为列号,即:i∈(1,2,…,N),j∈(1,2,…,N),且i是指示函数。3.如权利要求1或2所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(1)中,PSSM中的元素对数似然值为:Mk,j=log2(Mk,j/bk)4.如权利要求1所述的基于集成分类器的TA蛋白靶向方法,其特征在于,所述步骤(2)Bayes特征提取:先验概率:S=s1,s2,...,sn表示缩氨酸序列,s表示氨基酸。假设有两类样本,用C1和C-1表示:表示在m条序列中氨基酸的概率,其中,表示所有正负样例中位置i的序列A发生的概率;c1和c-1分别表示数据的标签,则根据贝叶斯方法:5.如权利要求3所述的基于集成分类器的TA蛋白靶向方法,其特征在于,P(c...

【专利技术属性】
技术研发人员:刘弘何演林马长乐赵丹丹陆佃杰吕晨
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1