基于集成分类器的TA蛋白靶向预测方法技术

技术编号：19058112 阅读：37 留言：0更新日期：2018-09-29 12:25

本发明专利技术公开了一种基于集成分类器的TA蛋白靶向方法，包括：采用PSSM方法对蛋白质数据进行编码；融合了一种Bayes的特征提取方法来提取蛋白质序列特征；采用mRMR算法对蛋白质数据进行特征选择；用支持向量机去训练模型，在训练过程中基于网格方式对参数γ和惩罚系数C进行优化；最后，集成SVM、NB、RF、Logist、KNN五种弱分类器对TA蛋白在亚细胞器靶向的分类结果，通过投票方式得出最终的分类结果；本发明专利技术有益效果：融合了一种Bayes的特征提取方法来提取蛋白质序列特征，通过集成多种算法的分类结果，可以更好的预测TA蛋白在亚细胞器的靶向。

全部详细技术资料下载

【技术实现步骤摘要】
基于集成分类器的TA蛋白靶向预测方法
本专利技术属于生物信息领域，尤其涉及了基于集成分类器的TA蛋白靶向预测方法。背景内容末端锚定蛋白质(tail-anchoredproteins，TA蛋白质)是一类特殊的膜蛋白，存在于所有生物中。此类蛋白质通过位于C端的唯一疏水跨膜结构域锚定在多种细胞器膜上，参与细胞多种重要的生理生化反应，但是至今人们对TA蛋白所涉及的机制和信号尚未完全了解。蛋白质靶向定位过程之一是将蛋白质插入生物膜中，而膜蛋白的有效和准确的插入是保证其在不同细胞器中正常功能的重要步骤，并且任何靶向误差可能导致这些蛋白质的错误定位，而不利于细胞效应。因此，TA蛋白靶向的预测具有重要的意义。TA蛋白质在C末端具有单个跨膜结构域(TMD)，将其锚定在细胞膜上，并将其N末端结构区域暴露在细胞溶液中。研究发现，这类蛋白在细胞分裂、凋亡、脂质运输等过程起到关键性的作用。因此，其正确的靶向定位对于细胞和生物体是至关重要的。TA蛋白质的TMD仅在翻译终止后才从核糖体中出现，TA蛋白在三个亚细胞位点进入细胞膜系统：内质网(ER)，线粒体和过氧化物酶体。在哺乳动物中，TRC40复合物参与将TA蛋白质插入到ER中。过氧化物酶体和线粒体的蛋白质插入机制上不明确。TA蛋白质的靶向信息包含在C末端，并且研究中已经确定TMD的疏水性和电荷量的存在是蛋白质选择靶向的重要因素。一般来说，ER靶向的TA蛋白往往具有比线粒体的那些TA蛋白更具有疏水性，这其中包含TMD的非带电区域。实验中证明，尾部的电荷量对于过氧化物酶体靶向也是很重要的。此外，TA蛋白在哺乳动物细胞中过氧化物酶体和线...

【技术保护点】
1.基于集成分类器的TA蛋白靶向方法，其特征在于，包括以下步骤：(1)通过对蛋白质blast序列产生的PSSM矩阵信息编码；(2)Bayes特征提取：利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多关系进行特征选择，在每个关系表中都选择出对分类帮助最大的特征子集，根据贝叶斯方法，求出每个氨基酸在每个位置发生的概率；(3)对提取得到的不同特征特征值进行归一化处理，使所有值都落入相同的数字取值区间内；(4)利用训练学习后的集成模型进行分类，采用投票的方式选择出最终的分类结果。

【技术特征摘要】
1.基于集成分类器的TA蛋白靶向方法，其特征在于，包括以下步骤：(1)通过对蛋白质blast序列产生的PSSM矩阵信息编码；(2)Bayes特征提取：利用基于互信息的最大相关最小冗余mRMR的特征选择算法对数据库中多关系进行特征选择，在每个关系表中都选择出对分类帮助最大的特征子集，根据贝叶斯方法，求出每个氨基酸在每个位置发生的概率；(3)对提取得到的不同特征特征值进行归一化处理，使所有值都落入相同的数字取值区间内；(4)利用训练学习后的集成模型进行分类，采用投票的方式选择出最终的分类结果。2.如权利要求1所述的基于集成分类器的TA蛋白靶向方法，其特征在于，所述步骤(1)中，位置频率(P)矩阵为：N＝20，i为行号，j为列号，即：i∈(1,2,…,N)，j∈(1,2,…,N)，且i是指示函数。3.如权利要求1或2所述的基于集成分类器的TA蛋白靶向方法，其特征在于，所述步骤(1)中，PSSM中的元素对数似然值为：Mk,j＝log2(Mk,j/bk)4.如权利要求1所述的基于集成分类器的TA蛋白靶向方法，其特征在于，所述步骤(2)Bayes特征提取：先验概率：S＝s1,s2,...,sn表示缩氨酸序列，s表示氨基酸。假设有两类样本，用C1和C-1表示：表示在m条序列中氨基酸的概率，其中，表示所有正负样例中位置i的序列A发生的概率；c1和c-1分别表示数据的标签，则根据贝叶斯方法：5.如权利要求3所述的基于集成分类器的TA蛋白靶向方法，其特征在于，P(c...

【专利技术属性】
技术研发人员：刘弘，何演林，马长乐，赵丹丹，陆佃杰，吕晨，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人