一种基于位置序列矩阵的蛋白质编码方法技术

技术编号:34950602 阅读:15 留言:0更新日期:2022-09-17 12:27
本发明专利技术提供了一种基于位置序列矩阵的蛋白质编码方法,通过根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;构建序列矩阵以及位置矩阵;序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。通过将蛋白质序列数据的位置信息和序列信息相结合对蛋白质序列进行编码,能够充分获取蛋白质特征信息,提高了蛋白质相互作用识别的准确率,增强了蛋白质相互作用预测算法的鲁棒性。用预测算法的鲁棒性。用预测算法的鲁棒性。

【技术实现步骤摘要】
一种基于位置序列矩阵的蛋白质编码方法


[0001]本专利技术涉及蛋白质编码
,具体而言,涉及一种基于位置序列矩阵的蛋白质编码方法。

技术介绍

[0002]蛋白质编码方法是将异质的氨基酸序列转化成同质的向量特征,输入到机器学习模型中进行训练。所以蛋白质序列编码方法也是影响模型性能的关键因素。
[0003]目前比较常用的蛋白质编码方法是CT、AC、LD和MOS等,但每种编码方法都有其自身的缺陷。CT考虑了三个相邻氨基酸的先后顺序关系,AC考虑了30个氨基酸的先后顺序关系,LD仅考虑两种相邻类型氨基酸的相邻效应,MOS考虑了整条蛋白质序列的频次信息,上述方法均未考虑整个蛋白质序列的前后位置顺序关系。因此,如何能够抽取整条蛋白质序列的位置信息,是提高蛋白质相互作用预测性能的关键技术问题。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中蛋白质相互作用预测性能低下、鲁棒性差的缺陷,提供一种基于位置序列矩阵的蛋白质编码方法来解决上述问题。
[0005]为了实现上述目的,本专利技术的第一方面提供了一种基于位置序列矩阵的蛋白质编码方法,所述方法包括:
[0006]S1,根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;
[0007]S2,构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;
[0008]S3,同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。
[0009]进一步,所述构建序列矩阵以及位置矩阵,其中,构建序列矩阵MOS包括:
[0010]设定非空有限集:Ω={w1,...,w
N
},其中N是序列的分类数;
[0011]给定序列:S=S1,S2,...,S
L
,其中L表示序列S的长度,S
i
∈Ω,1≤i≤L;序列S的位置矩阵表示为:
[0012]MOS=[m
ij
]N
×
N
ꢀꢀ
(1)
[0013]上式中m
ij

[0014][0015]基于序列矩阵的定义,得到序列矩阵中所有元素的和等于
[0016]从而,对于任意两个序列,当序列长度不同或序列长度相同但所含至少某一元素个数不相同时,其对应的序列矩阵不同。
[0017]进一步,所述构建序列矩阵以及位置矩阵,其中,构建位置矩阵包括:
[0018]设定非空有限集:Ω={w1,...,w
N
},其中N是序列的分类数;
[0019]给定序列:S=S1,S2,...,S
L
,其中L表示序列S的长度,S
i
∈Ω,1≤i≤L;序列S的位置矩阵表示为:
[0020]MOP=[x
ij
]N*N
ꢀꢀ
(3)
[0021]上式中x
ij

[0022][0023]所述位置矩阵是对称矩阵,对角线上的元素和对角线上方元素包含了氨基酸序列中所有元素的位置信息。
[0024]进一步,所述S3包括,将氨基酸序列数据编码成如下的向量:
[0025]MSP=[MOS
11
,...,MOS
1N
,...MOS
NN
,1/L]+[MOP
11
,...,MOP
1N
,...MOP
NN
,1/L]。
[0026]此外,本专利技术的第二方面提供了一种基于如上所述的位置序列矩阵的蛋白质编码方法实现蛋白互作预测的方法,所述方法包括:
[0027]将将编码后的蛋白质序列作为第一深度神经网络模型的输入,基于第一深度神经网络模型输出蛋白质相互作用分类结果;
[0028]所述第一深度神经网络模型,包括如下训练步骤:
[0029]前向传播阶段,从人蛋白数据集中取出样本,作为深度神经网络的输入,经过逐级的变换,传送到输出层,计算l层的实际输出,其计算公式如下:
[0030][0031]在应用了dropout时,第l层的输出为:
[0032][0033]其中,l=1,

,N,a
(l

1)
为第l层的输入数据,w
l
是第(l

1)层和第l层之间的连接权重矩阵,b
l
是第l层的偏置,δ表示第l层的激活;
[0034]后向传播阶段,计算实际输出O
i
和理想输出Y
i
的差,然后按照极小化误差的方法反向传播调整权矩阵,其输出层的误差计算公式如下:
[0035][0036][0037]其中,E
i
、O
ik
、T
ik
分别是第i个样本的误差、第i个样本输出层第k个神经元的输出、第i个样本输出层第k个神经元的期望输出。
[0038]此外,本专利技术的第三方面提供了一种基于位置序列矩阵的蛋白质编码装置,所述
装置包括:
[0039]分类模块,根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;
[0040]构件模块,构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;
[0041]编码模块,同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。
[0042]此外,本专利技术的第四方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于位置序列矩阵的蛋白质编码方法,或者,执行如上所述的蛋白互作预测的方法。
[0043]此外,本专利技术的第五方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如上所述的基于位置序列矩阵的蛋白质编码方法,或者,如上所述的蛋白互作预测的方法。
[0044]本专利技术的方案中,通过根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于位置序列矩阵的蛋白质编码方法,其特征在于,所述方法包括:S1,根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;S2,构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;S3,同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。2.根据权利要求1所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述构建序列矩阵以及位置矩阵,其中,构建序列矩阵MOS包括:设定非空有限集:Ω={w1,

,w
N
},其中N是序列的分类数;给定序列:S=S1,S2,

,S
L
,其中L表示序列S的长度,S
i
∈Ω,1≤i≤L;序列S的位置矩阵表示为:MOS=[m
ij
]
N
×
N
ꢀꢀꢀꢀ
(1)上式中m
ij
:基于序列矩阵的定义,得到序列矩阵中所有元素的和等于基于序列矩阵的定义,得到序列矩阵中所有元素的和等于从而,对于任意两个序列,当序列长度不同或序列长度相同但所含至少某一元素个数不相同时,其对应的序列矩阵不同。3.根据权利要求2所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述构建序列矩阵以及位置矩阵,其中,构建位置矩阵包括:设定非空有限集:Ω={w1,

,w
N
},其中N是序列的分类数;给定序列:S=S1,S2,

,S
L
,其中L表示序列S的长度,S
i
∈Ω,1i≤L;序列S的位置矩阵表示为:MOP=[x
ij
]
N*N
ꢀꢀꢀꢀ
(3)上式中x
ij
:所述位置矩阵是对称矩阵,对角线上的元素和对角线上方元素包含了氨基酸序列中所有元素的位置信息。4.根据权利要求3所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述S3包括,将氨基酸序列数据编码成如下的向量:MSP=[MOS
11
,...,MOS
1N
,...MOS
NN
,1/L]+[MOP
11
,...,MOP
1N

【专利技术属性】
技术研发人员:王雪赵小漫金洲胡宜敏史杨许桃胜王儒敬
申请(专利权)人:中科合肥智慧农业协同创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1