【技术实现步骤摘要】
一种基于位置序列矩阵的蛋白质编码方法
[0001]本专利技术涉及蛋白质编码
,具体而言,涉及一种基于位置序列矩阵的蛋白质编码方法。
技术介绍
[0002]蛋白质编码方法是将异质的氨基酸序列转化成同质的向量特征,输入到机器学习模型中进行训练。所以蛋白质序列编码方法也是影响模型性能的关键因素。
[0003]目前比较常用的蛋白质编码方法是CT、AC、LD和MOS等,但每种编码方法都有其自身的缺陷。CT考虑了三个相邻氨基酸的先后顺序关系,AC考虑了30个氨基酸的先后顺序关系,LD仅考虑两种相邻类型氨基酸的相邻效应,MOS考虑了整条蛋白质序列的频次信息,上述方法均未考虑整个蛋白质序列的前后位置顺序关系。因此,如何能够抽取整条蛋白质序列的位置信息,是提高蛋白质相互作用预测性能的关键技术问题。
技术实现思路
[0004]本专利技术的目的是为了解决现有技术中蛋白质相互作用预测性能低下、鲁棒性差的缺陷,提供一种基于位置序列矩阵的蛋白质编码方法来解决上述问题。
[0005]为了实现上述目的,本专利技术的第一方面提供了一种基于位置序列矩阵的蛋白质编码方法,所述方法包括:
[0006]S1,根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;
[0007]S2,构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;
[0008]S3,同时选择序列矩阵对角线以及对角线上面的值一起 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于位置序列矩阵的蛋白质编码方法,其特征在于,所述方法包括:S1,根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;S2,构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;S3,同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。2.根据权利要求1所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述构建序列矩阵以及位置矩阵,其中,构建序列矩阵MOS包括:设定非空有限集:Ω={w1,
…
,w
N
},其中N是序列的分类数;给定序列:S=S1,S2,
…
,S
L
,其中L表示序列S的长度,S
i
∈Ω,1≤i≤L;序列S的位置矩阵表示为:MOS=[m
ij
]
N
×
N
ꢀꢀꢀꢀ
(1)上式中m
ij
:基于序列矩阵的定义,得到序列矩阵中所有元素的和等于基于序列矩阵的定义,得到序列矩阵中所有元素的和等于从而,对于任意两个序列,当序列长度不同或序列长度相同但所含至少某一元素个数不相同时,其对应的序列矩阵不同。3.根据权利要求2所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述构建序列矩阵以及位置矩阵,其中,构建位置矩阵包括:设定非空有限集:Ω={w1,
…
,w
N
},其中N是序列的分类数;给定序列:S=S1,S2,
…
,S
L
,其中L表示序列S的长度,S
i
∈Ω,1i≤L;序列S的位置矩阵表示为:MOP=[x
ij
]
N*N
ꢀꢀꢀꢀ
(3)上式中x
ij
:所述位置矩阵是对称矩阵,对角线上的元素和对角线上方元素包含了氨基酸序列中所有元素的位置信息。4.根据权利要求3所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述S3包括,将氨基酸序列数据编码成如下的向量:MSP=[MOS
11
,...,MOS
1N
,...MOS
NN
,1/L]+[MOP
11
,...,MOP
1N
技术研发人员:王雪,赵小漫,金洲,胡宜敏,史杨,许桃胜,王儒敬,
申请(专利权)人:中科合肥智慧农业协同创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。