一种使用词袋模型的蛋白质亚细胞区间预测方法技术

技术编号：12029324 阅读：82 留言：0更新日期：2015-09-10 15:11

本发明专利技术公开了一种使用词袋模型的蛋白质亚细胞区间预测方法，利用滑动窗口方法分割蛋白质序列，获得大量序列单词的集合，运用氨基酸组成获得序列单词特征，对序列单词特征进行聚类分析构建字典，并通过统计计算获得蛋白质序列的词袋特征，最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明专利技术能有效提高识别精度，尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高，对准确预测未知蛋白的亚细胞位置具有重要作用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及生物学领域，具体涉及一种使用词袋模型的蛋白质亚细胞区间预测方法。
技术介绍
人类对生命科学的研宄因计算机技术的蓬勃发展发生了巨大变化，自从进入后基因组时代，人类获得了大规模的核酸和蛋白质序列数据，借助先进高效的计算机自动化数据处理技术从这些海量数据中挖掘有效信息成为必然趋势。国内外学者在以往的研宄中，主要采用数学方法描述提取的蛋白质序列特征信息，用高维的特征向量表示蛋白质序列，然后设计使用高效的分类器进行预测分析。目前，用于蛋白质序列特征提取的算法主要包括：氨基酸组成（AAC)、氨基酸的物化特性、二肽及多肽组成、伪氨基酸组成（PseAAC)以及不同特征的融合等。如Lin等的蛋白质亚细胞定位预测研宄采用了四肽信息；杨会芳等在预测蛋白质亚细胞定位中采用了分段伪氨基酸的特征提取方法；Gao等通过寻找蛋白质不同结构与物化特性的最佳组合来区分外膜蛋白。同时，在预测算法的设计方面国内外研宄者开展了大量工作，统计学和机器学习方法在已有的预测算法中得到了充分应用，如陈颖丽等在六类细胞凋亡蛋白的亚细胞定位研宄中使用了离散增量结合支持向量机的方法；还有基于人工神经网络、马尔可夫模型和贝叶斯网络等的分类预测方法。总结前人研宄成果不难发现，单纯采用传统的蛋白质序列特征提取算法，如AAC 等，进行特征提取并送入分类器进行定位预测的准确率偏低。
技术实现思路
为了解决现有技术中的不足，本专利技术提供了一种使用词袋模型的蛋白质亚细胞区间预测方法。本专利技术的技术方案如下： -种使用词袋模型的蛋白质亚细胞区间预测方法，包括以下...
一种使用词袋模型的蛋白质亚细胞区间预测方法

【技术保护点】
一种使用词袋模型的蛋白质亚细胞区间预测方法，其特征在于，包括以下步骤：(1)、分割蛋白质序列，截取序列单词；获得所述序列单词的组分信息，将所述组分信息作为序列单词的特征值；(2)、对序列单词的特征值进行聚类分析，获得字典；(3)、根据所述字典，获得蛋白质序列的词袋特征；将词袋特征送入支持向量机多类分类器，进行蛋白质亚细胞区间预测。

【技术特征摘要】

【专利技术属性】
技术研发人员：张梁，薛卫，赵南，
申请(专利权)人：江南大学，南京农业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人