当前位置: 首页 > 专利查询>江南大学专利>正文

一种使用词袋模型的蛋白质亚细胞区间预测方法技术

技术编号:12029324 阅读:82 留言:0更新日期:2015-09-10 15:11
本发明专利技术公开了一种使用词袋模型的蛋白质亚细胞区间预测方法,利用滑动窗口方法分割蛋白质序列,获得大量序列单词的集合,运用氨基酸组成获得序列单词特征,对序列单词特征进行聚类分析构建字典,并通过统计计算获得蛋白质序列的词袋特征,最后将词袋特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。可通过实验证明本发明专利技术能有效提高识别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未知蛋白的亚细胞位置具有重要作用。

【技术实现步骤摘要】

本专利技术涉及生物学领域,具体涉及一种使用词袋模型的蛋白质亚细胞区间预测方 法。
技术介绍
人类对生命科学的研宄因计算机技术的蓬勃发展发生了巨大变化,自从进入后基 因组时代,人类获得了大规模的核酸和蛋白质序列数据,借助先进高效的计算机自动化数 据处理技术从这些海量数据中挖掘有效信息成为必然趋势。国内外学者在以往的研宄中, 主要采用数学方法描述提取的蛋白质序列特征信息,用高维的特征向量表示蛋白质序列, 然后设计使用高效的分类器进行预测分析。 目前,用于蛋白质序列特征提取的算法主要包括:氨基酸组成(AAC)、氨基酸的物 化特性、二肽及多肽组成、伪氨基酸组成(PseAAC)以及不同特征的融合等。如Lin等的蛋 白质亚细胞定位预测研宄采用了四肽信息;杨会芳等在预测蛋白质亚细胞定位中采用了分 段伪氨基酸的特征提取方法;Gao等通过寻找蛋白质不同结构与物化特性的最佳组合来区 分外膜蛋白。同时,在预测算法的设计方面国内外研宄者开展了大量工作,统计学和机器学 习方法在已有的预测算法中得到了充分应用,如陈颖丽等在六类细胞凋亡蛋白的亚细胞定 位研宄中使用了离散增量结合支持向量机的方法;还有基于人工神经网络、马尔可夫模型 和贝叶斯网络等的分类预测方法。 总结前人研宄成果不难发现,单纯采用传统的蛋白质序列特征提取算法,如AAC 等,进行特征提取并送入分类器进行定位预测的准确率偏低。
技术实现思路
为了解决现有技术中的不足,本专利技术提供了一种使用词袋模型的蛋白质亚细胞区 间预测方法。 本专利技术的技术方案如下: -种使用词袋模型的蛋白质亚细胞区间预测方法,包括以下步骤: (1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分 信息作为序列单词的特征值; (2)、对序列单词的特征值进行聚类分析,获得字典; (3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多 类分类器,进行蛋白质亚细胞区间预测。 其进一步的技术方案为,所述步骤(1)中,截取序列单词的方法为滑动窗口分割 法,所述滑动窗口分割法的具体步骤如下: (1A)、选取滑动窗口 :L0=Min{L1;L2,A,Ln} (a) 式(a)中,Li,L2,A,LnS蛋白质序列数据集里所有的蛋白质序列的长度,h为数 据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口长度; (1B)、将滑动窗口从蛋白质序列的N端到C端滑动,每间隔固定数值,截取滑动窗 口长度d内的蛋白质序列片段作为一个序列单词。 其进一步的技术方案为,在所述步骤(1)中,采用BOW_AAC算法获得序列单词的组 分信息,所述BOW_AAC算法的具体步骤如下: 设序列单词p为: P = R1R2R3R4R5^Rl (c) 式(C)中,Ri(i= 1,2,3,4,5,A,L)表示序列单词p的第i个氨基酸残基; 定义序列单词p的氨基酸组分信息P为: p = A,f20]T (d) 式(d)和式(e)中,fu(u= 1,2, 3,A, 20)为20种氨基酸在序列单词p中出现的 频率:式(e)中,L表示一个序列单词的长度,N表示一个序列单词包含的氨基酸残基的总 数目,A(u)表示序号u所对应的氨基酸残基。 其进一步的技术方案为,在所述步骤(2)中使用K-means算法进行聚类分析,所述 K-means算法具体包括: (2A)、选取类别个数k:k=20+x,0彡x彡500, x G Z (f) 按照式(f)逐一选取k值,结合步骤(1)所述的滑动窗口d值,直到找到一组(d, k)值,使得词袋特征具有最高的识别精度;(2B)、从n个序列单词特征值组成的数据集合中任意选择k个序列单词特征值作 为初始聚类中心; (2C)、定义类内方差和为: 式(g)中,Sji= 1,2,A,k)表示聚类中心位置是h的第i个聚类类别,Xj为属 于聚类类别Si的特征值;所述类内方差和为k个类别个数的每一类中,各个序列单词的特 征值与聚类中心的距离的平方的和; 根据式(g)计算每个序列单词特征值与各聚类中心的距离,按照最近距离原则将 n个特征值分配到以k个聚类中心为代表的聚类类别中; (2D)、根据步骤(2C)得到的结果对新产生的k个类别进行中心计算,得到新的聚 类中心; (2E)、重复步骤(2C)和步骤(2D),直至聚类中心不再变化或者已达到最大迭代次 数,此时得到的聚类中心的集合作为字典。 其进一步的技术方案为,所述步骤(3)具体包括: (3A)、经聚类分析后序列单词特征值被映射到字典中的各个聚类中心,统计每一 条蛋白质序列属于各个聚类中心的序列单词个数; (3B)、对每一条蛋白质序列计算各个聚类中心上序列单词个数占该条蛋白质序列 序列单词总数的比例,从而获得蛋白质序列的词袋特征; (3C)、将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。 其进一步的技术方案为,所述步骤(3C)具体包括: (3C1)、从蛋白质数据集中选取一条蛋白质序列构成测试集,剩余的蛋白质序列构 成训练集;(3C2)、将训练样本(Q,yi)送入支持向量机多类分类器;向量q表示第i组训练 样本的词袋特征值,71表示该条蛋白质序列所对应的亚细胞位置;(3C3)、将测试样本送入向量机多类分类器进行预测并统计预测结果; (3C4)、重复所述步骤(3C1)至步骤(3C3)进行测试,测试次数等于蛋白质数据集 的大小。 本专利技术的有益技术效果是: 人类对生命科学的研宄不断深入,大规模的数据不断产生,从这些海量数据中高 效、准确地提取出有效信息具有重大意义。其中从蛋白质序列中提取出能用数字描述的序 列结构与功能特征是亚细胞定位预测研宄的核心内容之一。 本专利技术所述的方法可以使用词袋模型完成序列信息的提取,并在两个凋亡蛋白数 据集上实施应用,实验证明相对于现有技术,结合使用B0W模型与传统序列特征提取算法 AAC完成蛋白质序列特征的提取,并使用支持向量机分类方法进行定位预测,能有效提高识 别精度,尤其在传统方法预测准确率较低的亚细胞类上识别精度明显提高,对准确预测未 知蛋白的亚细胞位置具有重要作用。【附图说明】 图1是词袋特征提取过程示意图。【具体实施方式】 下面结合具体的实施例对本专利技术作进一步的说明。 以从SWISS-PR0T数据库获得的包含317条凋亡蛋白质序列的数据集为例进行说 明,运用词袋模型结合AAC算法提取蛋白质序列的词袋特征,并送入支持向量机多类分类 器进行定位预测。图1是词袋特征提取过程的示意图,如图1所示,其具体步骤如下所述, 在本专利技术所涉及的公式中,符号A代表数列中的省略项。 1、从原始数据库中获得数据集之后,首先使用滑动窗口法分割数据集里所有的蛋 白质序列,产生若干个序列单词,其次提取所有序列单词的特征。具体的步骤如下: 首先采用滑动窗口分割法对蛋白质序列进行分割,本步骤对应图1所示的步骤 (h),其具体步骤如下:(1A)、选取滑动窗口,式(a)和式(b)是选取滑动窗口的方法:L0=Min{L1;L2,A,Ln} (a) 式(a)中,Li,L2,人,1^表示蛋白质序列数据集里所有蛋白质序列的长度,h为数 据集里最短蛋白质序列的长度;式(b)中,d为滑动窗口大小。 在本实施例中,运用计算机编程语言编程处理蛋白质本文档来自技高网...
一种使用词袋模型的蛋白质亚细胞区间预测方法

【技术保护点】
一种使用词袋模型的蛋白质亚细胞区间预测方法,其特征在于,包括以下步骤:(1)、分割蛋白质序列,截取序列单词;获得所述序列单词的组分信息,将所述组分信息作为序列单词的特征值;(2)、对序列单词的特征值进行聚类分析,获得字典;(3)、根据所述字典,获得蛋白质序列的词袋特征;将词袋特征送入支持向量机多类分类器,进行蛋白质亚细胞区间预测。

【技术特征摘要】

【专利技术属性】
技术研发人员:张梁薛卫赵南
申请(专利权)人:江南大学南京农业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1